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本 书 站 在 初学 者 的 角度 ， 从 原理 到 实践 ， 循 序 渐进 地 讲述 了 使 用 Python 开发 网 络 爬 虫 的 核心 技 
术 。 全 书 从 逻辑 上 可 分 为 基础 篇 、 实 战 篇 和 疏 虫 框架 篇 三 部 分 。 基 础 篇 主要 介绍 了 编写 网 络 怜 虫 所 需 
的 基础 知识 ， 分 别 是 网 站 分 析 、 数 据 抓 取 、 数 据 清洗 和 数据 入 库 。 网 站 分 析 讲述 如 何 使 用 Chrome 和 
Fiddler 抓 包工 具 对 网 络 做 全 面 分 析 ; 数据 抓 取 介绍 了 Python 怜 虫 模块 Urllib 和 Requests 的 基础 知识 ; 数 
据 清洗 主要 介绍 字符 串 操作 、 正 则 和 Beautiful Soup 的 使 用 ， 数 据 入 库 分 别 讲 述 了 MySQL 和 MongoDB 
的 操作 ， 通 过 ORM 框 架 SQLAlchemy 实 现 数据 持久 化 ， 实 现 企 业 级 开发 。 实 战 篇 深入 讲解 了 分 布 式 聆 
虫 、 疏 虫 软件 开发 与 应 用 、12306 抢 票 程序 和 微 博 爬 取 ， 所 举 示 例 均 来 自 于 开发 实践 ， 可 帮助 读者 快 
速 提升 技能 ， 开 发 实际 项 目 。 框 架 篇 主要 讲述 Scrapy 的 基础 知识 ， 并 通过 疏 取 QQ 音乐 为 实例 ， 让 读 
者 深层 次 了 解 Scrapy 的 使 用 。 

本 书 内 容 丰 富 ， 注 重 实战 ， 适 用 于 从 零 开 始 学 习 网 络 爬 虫 的 初学 者 ， 或 者 是 已 经 有 一 些 网 络 爬 虫 
编写 经 验 ， 但 希望 更 加 全 面 、 深 入 理解 Python 怜 虫 的 开发 人 员 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 CIP) 数据 


玩 转 Python 网 络 疏 虫 / 黄 永 祥 著 . 一 北京 : 清华 大 学 出 版 社 ，2018 
ISBN 978-7-302-50328-6 


I . Ofi I. OX- M. @ 软 件 工具 一 程序 设计 IV. DTP311.56 
中 国 版 本 图 书馆 CIP 数 据 核 字 (2018) 第 114988 号 








出 版 发 行 : 清华 大 学 出 版 社 
网 址 : http://www. tup. com. cn, http://www. wqbook. com 
地 Hb 北京 清华 大 学 学 研 大 厦 A 座 AB ” 编 : 100084 
社 总 机 : 010-62770175 邮 购 : 010-62786544 
投稿 与 读者 服务 : 010-62776969，c-service@tup. tsinghua. edu. cn 
质量 反馈 : 010-62772015, zhiliang6tup. tsinghua. edu. cn 
ED 刷 者 : 北京 富 博 印 刷 有 限 公 司 
装 订 者 : 北京 市 密云 县 京 文 制 本 装订 厂 
经 e 全 国 新 华 书 店 


开 ”本 : 180mmX230mm Ep — 3K: 20.25 字 "n ASTE 

版 次 : 2018 年 8 月 第 1 版 印 ”次 : 2018 年 8 月 第 1 次 印刷 
Ep — 39: 1~3500 

zx — df 69.0075 





产品 编号 : 077679-01 


ill 


前 


随 着 大 数据 和 人 工 智 能 的 普及 ，Python 的 地 位 也 变 得 水 涨 船 高 ， 许 多 技术 人 员 投 身 
于 Python FR, K PRERE Python 最 为 热门 的 应 用 领域 之 一 。 在 爬虫 领域 ，Python 
可 以 说 是 处 于 霸主 地 位 ，Python 能 解决 息 虫 开发 过 程 中 所 遇 到 的 难题 ， 开 发 速度 快 且 支 
持 异 步 编程 , 大 大 缩短 了 开发 周期 。 因 此 ,Python 疏 虫 编程 已 成 为 肘 虫 工程 师 的 必 备 技能 。 


本 书 共 分 18 章 ， 各 章 内 容 概述 如 下 : 


第 1 章 介 绍 什么 是 网 络 扑 虫 、 扑 虫 的 类 型 和 原理 、 息 虫 搜索 策略 和 反扑 虫 技 术 以 及 
解决 方案 。 

第 2 章 讲解 怜 虫 开发 的 基础 知识 ， 包 括 HTTP 协议 、 请 求 头 和 Cookies 的 作用 、 
HTML 的 布局 结构 、JavaScript 的 介绍 、JSON 的 数据 格式 和 Ajax 的 原理 。 


第 3 章 介 绍 使 用 Chrome 开发 工具 分 析 疏 取 网 站 ， 重 点 介绍 开发 者 工具 的 Elements 
和 Network 标签 的 功能 和 使 用 方式 ， 并 通过 开发 者 工具 分 析 QQ 网 站 。 


第 4 章 主要 介绍 Fiddler 抓 包 工具 的 原理 和 安装 配置 ，Fiddler 用 户 界面 的 各 个 功能 及 
使 用 方法 。 

第 5 章 讲 述 了 Urllib 在 Python 2 和 Python 3 的 变化 及 使 用 ， 包 括 发 送 请 求 、 使 用 代 
H IP, Cookies 的 读 写 、HTTP 证 书 验收 和 数据 处 理 。 


第 6 章 介绍 Python 第 三 方 库 Requests 的 安装 和 使 用 ， 包 括 发 送 请 求 、 使 用 代理 IP, 
Cookies 的 读 写 、HTTP 证 书 验收 和 文件 下 载 与 上 传 。 
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第 7 章 介 绍 验证 码 的 种 类 和 识别 方法 ， 包 括 OCR 的 安装 和 使 用 、 验 证 码 图 片 处 
理 和 使 用 第 三 方 平台 识别 验证 码 。 

第 8 章 讲 述 数据 清洗 的 三 种 方法 ， 包 括 字 符 串 操作 (和 截取、 查找、 分 割 和 蔡 换 ) 、 
正则 表达 式 的 使 用 和 第 三 方 库 Beautiful Soup 的 安装 以 及 使 用 。 


第 9 章 讲述 如 何 将 数据 存储 到 文件 ， 分 别 介绍 了 CSV. Excel 和 Word 的 读 写 方 
法 及 数据 存储 。 


第 10 章 介 绍 ORM 框架 SQLAlchemy 的 安装 及 使 用 ， 实 现 关 系 型 数据 库 持 久 化 
存储 数据 ， 这 是 企业 级 的 关系 型 数据 库 操作 。 


第 11 章 讲述 非 关系 型 数据 库 MongoDB 的 操作 ， 介 绍 MongoDB 的 安装 、 原 理 结 
Tg fll Python 实现 MongoDB 读 写 。 


第 12 章 介绍 假 取 淘宝 商品 信息 实例 ， 包 括 网 站 分 析 、 数 据 抓 取 、 数 据 清洗 以 及 
存储 在 CSV 文件 中 ， 读 者 应 掌握 爬虫 的 开发 流程 。 


第 13 3E fr 4H EC QQ 音乐 全 站 歌曲 实例 ， 包 括 网 站 分 析 、 数 据 抓 取 和 实现 
SQLAlchemy 存 储 歌曲 信息 并 下 载 文件 , 使 用 异步 编程 实现 分 布 式 开发 , Ve ERAR. 


第 14 章 是 在 第 12 章 的 基础 上 实现 怜 虫 软件 开发 ， 包 括 PyQts 的 安装 、 使 用 Qt 
Designer 设计 软件 界面 、 搭 建 MVC 开发 架构 。 


第 15 章 实现 12306 抢 票 怜 虫 开 发 ， 包 括 用 户 登 录 、 查 询 车 次 、 预 订 车 票 、 提 交 
订单 和 生成 订单 的 分 析 以 及 功能 实现 。 


第 16 章 介绍 微 博 怜 虫 开 发 ， 包 括 微 博 登 录 、 采 集 热门 微 博 、 发 布 微 博 、 关 注 微 
博 用 户 和 转发 评论 的 分 析 以 及 功能 实现 。 

第 17 章 介绍 Scrapy MERHER, Afi Scrapy 的 运行 机 制 、 安 装 、 项 目 创建 以 及 各 
个 组 件 的 编写 (Setting、Items、Item Pipelines 和 Spider) 和 文件 下 载 。 


第 18 章 介 绍 Scrapy MER QQ 音乐 全 站 歌曲 实例 ， 包 括 编写 Spider 实现 数据 抓 取 、 
Item Pipelines 实现 歌曲 信息 存储 和 歌曲 下 载 、Items 定义 数据 存储 对 象 和 Setting 配置 
项 目 设置 。 


1p 


本 书 特 色 


循序 渐进 ， 知 识 全 面 : 本 书 站 在 初学 者 的 角度 ， 围 绕 Python HERF RRA 
讲解 ， 从 初学 者 必 备 基础 知识 着 手 ， 循 序 渐进 地 介绍 了 使 用 Python 3 开发 网 络 爬 虫 的 
各 种 知识 ， 内 容 难 度 适中 ， 由 浅 入 深 ， 实 用 性 强 ， 和 覆盖面 广 ， 条 理 清晰 ， 且 具有 和 较 强 
的 逻辑 性 和 系统 性 。 

实例 丰富 ， 扩 展 性 强 : 本 书 采用 大 量 的 实例 进行 讲解 ， 力 求 通过 实际 操作 使 读者 
更 容易 地 掌握 聆 虫 开发 。 本 书 实例 都 经 过 作者 精心 设计 和 挑选 ， 根 据 作 者 的 实际 开发 
经 验 总 结 而 来 ， 涵 盖 了 在 实际 开发 中 所 遇 到 的 各 种 问题 。 对 于 精 选 案例 ， 都 尽 可 能 做 
到 步骤 详尽 、 结 构 清晰 、 分 析 深 入 浅 出 ， 而 且 案 例 的 扩展 性 强 ， 读 者 可 根据 实际 需求 
扩展 开发 。 

基于 理论 ， 注 重 实践 : 在 讲解 过 程 中 ， 不 仅 介绍 理论 知识 ， 而 且 安 排 了 综合 应 用 
实例 或 小 型 应 用 程序 ， 将 理论 应 用 到 实践 中 ， 加 强 读者 的 实际 开发 能 力 ， 巩 固 开发 技 
能 和 相关 知识 。 





源码 提供 


本 书 的 实例 源码 可 以 在 百度 网 盘 下 载 。 

链接 地 址 1: https://pan.baidu.com/s/1htxBpic 密码 : aesy 

链接 地 址 2: https://pan.baidu.com/s/1E7axRN9rCOi9ASM1124lAw 
也 可 以 扫描 以 下 二 维 码 下 载 。 
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如 果 你 在 下 载 过 程 中 遇 到 问题 ， 可 发 送 邮件 至 booksaga(2126.com 获得 帮助 ， 邮 
件 标题 为 “ 玩 转 Python WEKE R FRAI” o 


技术 服务 


读者 在 学 习 或 者 工作 的 过 程 中 ， 如 果 遇 到 实际 问题 ， 可 以 加 入 QQ RE 93314951 
或 657341423 与 笔者 联系 ， 笔 者 会 在 第 一 时 间 给 予 回复 。 








读者 对 象 


本 书 主要 适合 以 下 读者 阅读 : 








Python 网 络 爬 虫 初学 者 及 在 校 学 生 。 
Python WAR * 42 Jf , 

从 事 数据 抓 取 的 技术 人 员 。 

其 他 学 习 Python 网 络 疏 虫 的 开发 人 员 。 


虽然 笔者 力求 本 书 更 怒 完美， 但 由 于 水 平 所 限 ， 难 免 会 出 现 错误 ， 特 别 是 实例 中 
怜 取 的 网 站 可 能 随时 更 新 ， 导 致 源码 在 运行 过 程 中 出 现 问题 ， 欢 迎 广大 读者 和 高 手 专 
家 给 予 指正 ， 笔 者 将 十 分 感谢 。 


编 者 
2018 年 1 月 
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TERR RTE rh 


1.1 ERREX 

[LA fe hE ENR se KOA 3 IU FUA A LCS o6 BA. 简单 来 说 ， 
UAE E BACH — iE LU REOS UU RUTAS, EEE URL 实现 数据 的 抓 取 和 发 气 。 

随 着 大 数据 时 代 的 发 展 ， 数 据 规模 越 来 越 庞大 ， 数 据 类 型 繁多 ， 但 是 数据 价值 普 
遍 较 低 。 为 了 从 庞大 的 数据 体系 里 获取 有 价值 的 数据 ， 从 而 延伸 了 网 络 候 虫 、 数 据 分 
析 等 多 个 职位 。 近 几 年 ， 网 络 息 虫 的 需求 更 是 井喷 式 地 爆发 ， 在 招聘 的 供求 市 场 上 往 
往 是 供不应求, 造成 这 个 现状 的 主要 原因 就 是 求职 者 的 专业 水 平 低 于 需求 企业 的 要 求 。 

传统 的 忠 虫 有 百度 、Google、 必 应 等 搜索 引擎 ， 这 类 通用 的 搜索 引擎 都 有 自己 的 
核心 算法 。 但 是 ， 这 类 通用 的 搜索 引擎 也 存在 着 一 定 的 局 限 性 : 
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CD 不 同 的 搜索 引擎 对 于 同一 个 搜索 会 有 不 同 的 结果 ， 搜 索 出 来 的 结果 未 必 是 
用 户 需 要 的 信息 。 

D 通用 的 引擎 扩大 网 络 覆 盖 率 ， 但 有 限 的 搜索 引擎 服务 器 资源 与 无 限 的 网 络 
数据 资源 之 间 的 矛盾 将 进一步 加 深 。 

(3) 随 着 网 络 上 数据 形式 繁多 和 网 络 技术 不 断 发 展 ， 图 片 、 数 据 库 、 音 频 、 视 
频 多 媒体 等 不 同 数据 大 量 出 现 ， 通 用 搜索 引擎 往往 对 这 些 信 息 含量 密集 且 具 有 一 定 结 
构 的 数据 无 能 为 力 ， 不 能 很 好 地 发 现 和 获取 。 


因此 ， 为 了 得 到 准确 的 数据 ， 定 向 抓 取 相关 网 页 资源 的 聚焦 候 虫 应 运 而 生 。 聚 焦 
和 爬虫 是 一 个 自动 下 载 网 页 的 程序 ， 根 据 设 定 的 抓 取 目 标 有 目的 性 地 访问 互联 网 上 的 网 页 
与 相关 的 URL， 从 而 获取 所 需要 的 信息 。 与 通用 怜 虫 不 同 ， 聚 焦 怜 虫 并 不 追求 全 面 的 
覆盖 率 ， 而 是 抓 取 与 某 一 特定 内 容 相关 的 网 页 ， 为 面向 特定 的 用 户 提供 准备 数据 资源 。 


12 Redi 


Fl £g C tB AR S 38 Dt s AUTE RERA NAA 4 种 类 型 : 38H EAR TO: RE 
MEER, XE dS IL ARTE RARE IL AR f rh. 

38 RH PLZ TE ch XU ERE UTE HR, ELITS ERE. Google. JN ^S SI SE, METI 
象 从 一 些 初始 URL 扩充 到 整个 网 站 ， 主 要 为 门户 站 点 搜索 引擎 和 大 型 网 站 服务 采集 
数据 ， 具 有 以 下 特点 : 





COD 由 于 商业 原因 ， 引 擎 的 算法 是 不 会 对 外 公布 的 。 


(2) 这 类 网 络 候 虫 的 仆 行 范围 和 数量 巨大 ,对 于 有 息 行 速度 和 存储 空间 要 求 较 高 ， 
怜 行 页 面 的 顺序 要 求 相 对 较 低 。 


G) 待 刷新 的 页 面 太 多 ， 通 常 采用 并 行 工作 方式 ， 但 需要 较 长 时 间 才 能 刷新 一 
次 页 面 。 
(4) 存在 一 定 缺 陷 ， 通 用 网 络 怜 虫 适用 于 为 搜索 引擎 搜索 广泛 的 需求 。 


聚焦 网 络 仆 虫 又 称 主题 网 络 息 虫 ， 是 选择 性 地 让 行 根据 需求 的 主题 相关 页 面 的 网 
络 聆 虫 。 与 通用 网 络 疏 虫 相 比 ， 聚 焦 聆 虫 只 需要 疏 行 与 主题 相关 的 页 面 ， 不 需要 广泛 
地 覆盖 无 关 的 网 页 ， 很 好 地 满足 一 些 特定 人 群 对 特定 领域 信息 的 需求 。 
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增 量 式 网 络 怜 虫 是 指 对 已 下 载 网 页 采取 增 量 式 更 新 和 只 疏 行 新 产生 或 者 已 经 发 生 
变化 的 网 页 的 息 虫 ， 它 能 够 在 一 定 程度 上 保证 所 息 行 的 页 面 尽 可 能 是 新 的 页 面 。 只 会 
在 需要 的 时 候 怜 行 新 产生 或 发 生 更 新 的 页 面 ， 并 不 重新 下 载 没 有 发 生变 化 的 页 面 ， 可 
有 效 减 少数 据 下 载 量 ， 及 时 更 新 已 疏 行 的 网 页 ， 减 小 时 间 和 空间 上 的 耗费 ， 但 是 增加 
了 岭 行 算法 的 复杂 度 和 实现 难度 ， 基 本 上 这 类 疏 虫 在 实际 开发 中 不 太 普 及 。 

深层 网 络 疏 虫 是 大 部 分 内 容 不 能 通过 静态 URL 获取 的 、 隐 藏 在 搜索 表单 后 的 、 
只 有 用 户 提交 一 些 关 键 词 才 能 获得 的 网 络 页 面 。 例 如 某 些 网 站 需要 用 户 登 录 或 者 通过 
提交 表单 实现 提交 数据 。 这 类 爬虫 也 是 本 书 主要 讲述 的 重点 之 一 。 

这 4 种 类 型 的 朴 虫 大 致 上 又 可 以 分 为 两 类 ， 就 是 通用 爬虫 和 聚焦 咎 虫 ， 其 中 聚焦 
网 络 仆 虫 、 增 量 式 网 络 息 虫 和 深层 网 络 候 虫 可 以 通俗 地 归纳 为 一 类 ， 因 为 这 类 扑 虫 都 
是 定向 爬 取 数据 。 相 比 于 通用 爬虫 ， 这 类 怜 虫 比较 有 目的 性 ， 也 就 是 网 络 上 经 常 说 的 
网 络 息 虫 ， 而 通用 扑 虫 在 网 络 上 通常 称 为 搜索 引擎 。 


1.3 ERRIRE 


通用 网 络 爬 虫 的 实现 原理 及 过 程 如 图 1-1 所 示 。 





初始 URL 





待 提取 URL l 读 取 URL 并 解释 网 页 内 容 




















BP > Brun | | FAR | 
是 | ax 
图 1-1 通用 有 虫 实现 的 原理 及 过 程 
通用 网 络 朴 虫 的 实现 原理 : 


COD 获取 初始 的 URL。 初 始 的 URL 地 址 可 以 人 为 地 指定 ， 也 可 以 由 用 户 指定 
的 某 个 或 某 几 个 初始 怜 取 网 页 决定 。 
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(2) 根据 初始 的 URL 怜 取 页 面 并 获得 新 的 URL。 获 得 初始 的 URL 地 址 之 后 ， 
ERKAT URL 地 址 中 的 网 页 信息 ， 然 后 解析 网 页 信息 内 容 ， 将 网 页 存储 到 原始 数 
据 库 中 , 并 且 在 当前 获得 的 网 页 信息 里 发 现 新 的 URL 地址, 存放 于 一 个 URL 队列 里 面 。 

G) 从 URL 队列 中 读 取 新 的 URL， 从 而 获得 新 的 网 页 信息 ， 同 时 在 新 网 页 中 
获取 新 URL, HER ERMEE. 

(4) WEE HR AR AEULBLBU ER IEAE TERI, FEER. Ei SERR, RA 
REMAKE IETR E, MERRER EA TES EISE EER. WRA WEBS IE TIE, 
VERE EUROPA. HEITAR URL 地 址 为 止 。 


A fol £s TC R BATA JEUBIURUISE RR 55 388 FH TE rRCK SUR IR], 6388 FH TE ri Br] t. E389 m 
两 个 步骤 : EUER H RAMETI URL， 原 理 如 图 1-2 所 示 。 


初始 URL 


| 


待 捉 取 URL 非 空 读 取 URL 并 解释 网 页 内 容 | 


iik EL 
zh 


<<< Gübum > 获取 新 URL 数据 入 库 


























一 一 停止 | 
1-2 聚焦 网 络 有 爬虫 的 原理 
聚焦 网 络 怜 虫 的 实现 原理 : 


COD 制定 疏 取 的 方案 。 在 聚焦 网 络 爬 虫 中 ， 首 先 要 依据 需求 定义 聚焦 网 络 扑 虫 
礁 取 的 目标 以 及 整体 的 聆 取 方案 。 


(2) 设 定 初始 的 URL. 

(3) 根据 初始 的 URL 抓 取 页 面 ， 并 获得 新 的 URL。 

(4). 从 新 的 URL 中 过 滤 掉 与 需求 无 关 的 URL， 将 过 滤 后 的 URL 放 到 URL 队 
列 中 。 

(5) 在 URL 队列 中 ， 根 据 搜索 算法 确定 URL 的 优先 级 ， 并 确定 下 一 步 要 怜 取 
的 URL 地 址 。 因 为 聚焦 网 络 聆 虫 具有 目的 性 ， 所 以 URL 的 怜 取 顺序 不 同 会 导致 肘 虫 
的 执行 效率 不 同 。 
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C6) 得 到 新 的 URL， 将 新 的 URL EI EXSERGSERE- 
D 满足 系统 中 设置 的 停止 条 件 或 无 法 获取 新 的 URL Hahk, ENEIT o 


14 的 虫 的 搜索 策略 


在 互联 网 数据 时 代 ， 有 三 大 搜索 策略 需要 有 所 了 解 ， 下 面 一 一 介绍 。 





1. 深度 优先 搜索 

深度 优先 搜索 是 在 开发 假 虫 早期 使 用 较 多 的 方法 ， 目 的 是 达到 被 搜索 结构 的 叶 
结 点 (那些 不 包含 任何 超级 URL 的 HTML 文件 ) 。 在 一 个 HTML 文件 中 ， 当 一 个 
URL 被 选择 后 ， 被 选 URL 将 执行 深度 优先 搜索 ， 搜 索 后 得 到 新 的 HTML 文件 ， 再 从 
新 的 HTML 获取 新 的 URL 进行 搜索 ， 以 此 类 推 ， 不 断 地 有 爬 取 HTML 中 的 URL， 直 
到 HTML 中 没有 URL 为 止 。 

深度 优先 搜索 沿 着 HTML 文件 中 的 URL 走 到 不 能 再 深入 为 止 ， 然 后 返回 到 某 一 
^ HTML 文件, 再 继续 选择 该 HTML 文件 中 的 其 他 URL。 当 不 再 有 其 他 URL 可 选择 时 ， 
说 明 搜索 已 经 结束 。 其 优点 是 能 遍历 一 个 Web 站 点 或 深层 嵌 套 的 文档 集合 。 缺 点 是 
因为 Web 结构 相当 深 ， 有 可 能 造成 一 旦 进去 再 也 出 不 来 的 情况 发 生 。 

举 个 例子 ， 比 如 一 个 网 站 的 首页 里 面 带 有 很 多 URL， 深 度 优先 通过 首页 的 URL 
进入 新 的 页 面 ， 然 后 通过 这 个 页 面 里 的 URL 再 进入 新 的 URL， 不 断 地 循环 下 去 ， 直 
到 返回 的 页 面 没有 URL 为 止 。 如 果 首页 有 两 个 URL， 选 择 第 一 个 URL 后 ， 生 成 新 的 
页 面 就 不 会 返回 首页 ， 而 是 在 新 的 页 面 选择 一 个 新 的 URL， 这 样 不 停 地 访问 下 去 。 

2. 宽度 优先 搜索 

宽度 优先 搜索 是 搜索 完 一 个 Web 页 面 中 所 有 的 URL， 然 后 继续 搜索 下 一 层 ， 直 
到 底层 为 止 。 例 如 ， 首 页 中 有 3 个 URL， 疏 虫 会 选择 其 中 之 一 ， 处 理 相 应 的 页 面 之 
后 ， 然 后 返回 首页 再 爬 取 第 二 个 URL， 处 理 相 应 的 页 面 ， 最 后 返回 首页 爬 取 第 三 个 
URL， 处 理 第 三 个 URL 对 应 的 页 面 。 

一 旦 一 层 上 的 所 有 URL 都 被 选择 过 ， 就 可 以 开始 在 刚才 处 理 过 的 页 面 中 搜索 其 
余 的 URL， 这 就 保证 了 对 浅 层 的 优先 处 理 。 当 遇 到 一 个 无 穷尽 的 深层 分 支 时 ， 不 会 导 
致 陷 进 深层 文档 中 出 不 来 的 情况 发 生 。 宽 度 优先 搜索 策略 还 有 一 个 优点 ， 能 够 在 两 个 
页 面 之 间 找 到 最 短路 径 。 
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3i BE UL SR SEDET JE SCHUTE HR BO RE CETERI, HIERAAN, BRAKE 
数 期 望 的 功能 。 但 是 如 果 要 遍历 一 个 指定 的 站 点 或 者 深层 嵌 套 的 HTML 文件 集 ， 用 
宽度 优先 搜索 策略 就 需要 花费 较 长 时 间 才 能 到 达 最 底层 。 

3. 聚焦 爬虫 的 疏 行 策略 

聚焦 怜 虫 的 疏 行 策略 只 跳出 某 个 特定 主题 的 页 面 ， 根 据 “最 好 优先 原则 ”进行 访 
问 ， 快 速 、 有 效 地 获得 更 多 与 主题 相关 的 页 面 ， 主 要 通过 内 容 与 Web 的 URL 结构 指 
导 进 行 页 面 的 抓 取 。 聚 焦 怜 虫 会 给 所 下 载 的 页 面 一 个 评价 分 ， 根 据 得 分 排序 插入 一 个 
队列 中 。 最 好 下 一 个 搜索 对 弹出 队列 的 第 一 个 页 面 进行 分 析 后 执行 ， 这 种 策略 保证 爬 
虫 能 优先 跟踪 那些 最 有 可 能 URL 到 目标 页 面 的 页 面 。 

决定 网 络 怜 虫 搜索 策略 的 关键 是 评价 URL 价值 ， 即 URL 价值 的 计算 方法 ， 不 同 
的 价值 评价 方法 计算 出 的 URL. 的 价值 不 同 ， 表 现 出 的 URL 的 “重要 程度 ”也 不 同 ， 
从 而 决定 不 同 的 搜索 策略 。 由 于 URL 包含 于 页 面 之 中 ， 而 通常 具有 较 高 价值 的 页 面 
包含 的 URL 也 具有 较 高 价值 ， 因 此 对 URL 价值 的 评价 有 时 也 转换 为 对 页 面 价值 的 
评价 。 


1.5 RIEHSCR RR; 5e 


PEAKE P Fe s RATRE, AU — ^ Fd 35 3 65463 Ife pU fs 8 
根据 网 站 设计 架构 、 数 据 传输 方式 和 请 求 方式 等 各 个 方面 评估 。 下 面 列 出 常用 的 反扑 
虫 技术 。 





(1) 用 户 请 求 的 Headers。 
(2) 用 户 操 作 网 站 行为 。 
(3) 网 站 目录 数据 加 载 方 式 。 
(4) 数据 加 密 。 

(5) 验证 码 识 别 。 


网 站 设置 反 仆 机 制 不 代表 不 能 仆 取 数据 ， 正 如 “你 有 张 良 计 ， 我 有 过 墙 梯 ”， 每 
种 反 息 虫 机制 都 有 对 应 的 解决 方案 。 





第 1 章 RAER 


1. 基于 用 户 请 求 的 Headers 

从 用 户 请 求 的 Headers 反 息 虫 是 最 常见 的 反扑 虫 策略 。 很 多 网 站 会 对 Headers 
的 User-Agent 进行 检测 ， 还 有 一 部 分 网 站 会 对 Referer 进行 检测 (一 些 资源 网 站 的 
防盗 链 就 是 检测 Referer) 。 如 果 遇 到 了 这 类 反 息 虫 机 制 ， 就 可 以 在 息 虫 代码 中 添加 
Headers 请 求 头 ， 将 浏览 器 的 请 求 信 息 以 字典 的 数据 格式 写 入 疏 虫 的 请 求 头 。 对 于 检 
测 Headers 的 反扑 虫 ， 在 仆 虫 发 送 请 求 中 修改 或 者 添加 Headers 就 能 很 好 地 解决 。 

2. 基于 用 户 操作 网 站 行为 

还 有 一 部 分 网 站 是 通过 检测 用 户 行为 来 判断 用 户 行为 是 否 合 规 ， 例 如 同一 全 短 
时 间 内 多 次 访问 同一 页 面 或 者 同一 账户 短 时 间 内 多 次 进行 相同 操作 。 网 站 服务 器 会 根 
据 已 设 定 的 判断 条 件 判 断 访问 间隔 是 否 合理 ， 从 而 达到 检测 用 户 行为 是 否 合理 。 

遇 到 用 户 行为 判断 这 种 情况 ， 可 使 用 下 代理 ，IP 可 以 在 他 代理 平台 上 通过 API 
接口 获取 ， 每 请 求 几 次 更 换 一 个 I， 这样 就 能 很 容易 地 绕 过 第 一 种 反 息 虫 。 

还 有 一 种 解决 方案 是 在 每 次 请 求 间隔 几 秒 后 再 发 送 下 一 次 请 求 。 只 需 在 代码 里 面 
加 一 个 延 时 功能 就 可 以 简单 实现 ， 有 些 有 逻辑 漏洞 的 网 站 可 以 通过 请 求 几 次 、 退 出 登 
录 、 重 新 登录 、 继 续 请 求 来 绕 过 同一 账号 短 时 间 内 不 能 多 次 进行 相同 请 求 的 限制 。 

3. 基于 网 站 目录 数据 加 载 

上 述 几 种 情况 大 多 都 出 现在 静态 页 面 ， 还 有 一 部 分 网 站 是 由 Ajax 通过 访问 接口 
的 方式 生成 数据 加 载 到 网 页 。 遇 到 这 样 的 情况 ， 首 先 分 析 网 站 设计 ， 找 到 Ajax 请 求 ， 
分 析 有 具体 的 请 求 参数 和 响应 的 数据 结构 及 其 含义 ， 在 爬虫 中 模拟 Ajax 请 求 ， 就 能 获 
取 所 需 数据 。 

4. 基于 数据 加 密 

在 很 多 情况 下 没有 想象 中 那么 完美 ， 能 够 直接 模拟 Ajax 请 求 获取 数据 固然 是 极 
好 ， 但 部 分 网 站 会 把 请 求 的 参数 加 密 处 理 。 这 种 情况 可 先 找到 加 密 代 码 ， 加 密 代码 主 
要 是 使 用 JavaScript 实 现 的 , 分 析 代码 的 加 密 方式 , 然后 在 怜 虫 代码 中 模拟 其 加 密 处 理 ， 
再 发 送 请 求 。 这 是 最 优 解决 方案 ， 但 花费 时 间 较 多 ， 难 度 相对 较 大 。 

另 一 种 解决 方案 是 使 用 Selenium-PhantomJS 框架 〈 自 动 化 测试 技术 ) ， 调 用 浏 
览 器 内 核 ， 利 用 Selenium 模拟 人 为 操作 网 页 并 触发 页 面 中 的 JS 脚本 ， 完 整地 实现 自 
动 化 操作 网 页 ， 数 据 是 从 网 页 上 自动 获取 的 。 这 套 框 架 几 乎 能 绕 过 大 多 数 反 息 虫 ， 因 
为 PhantomJS 是 一 个 没有 界面 的 浏览 器 。Selenium+PhantomJS 能 解决 很 多 事情 ， 而 且 
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用 途 很 大 。 但 是 在 聆 虫 中 ， 不 到 逼 不 得 已 的 地 步 ， 一 般 不 支持 使 用 这 种 方式 ， 因 为 这 
种 方式 已 经 是 自动 化 测试 的 范畴 ， 有 点 偏离 了 怜 虫 开发 。 

5. 基于 验证 码 识别 

最 有 效 的 反 疏 虫 技术 就 是 验证 码 ， 目 前 对 复杂 的 验证 码 还 没有 做 到 很 好 地 识别 验 
证 ， 只 能 通过 第 三 方 平台 处 理 或 者 OCR 技术 识别 。 当 然 ， 不 是 说 有 验证 码 就 不 能 做 
疏 虫 ， 只 是 目前 在 验证 码 的 问题 上 还 没有 一 个 很 完美 的 解决 方案 。 


1.6 本 章 小 结 

网 络 爬 虫 的 类 型 理论 上 分 为 4 类， 但 实际 上 可 以 分 为 两 大 类 : AERA RRE 
虫 。 通 用 疏 虫 主要 有 Google、 百 度 、 必 应 等 搜索 引擎 ， 主 要 以 核心 算法 为 主导 ， 学 习 
成 本 相对 较 高 。 聚 焦 聆 虫 就 是 定向 爬 取 数 据 ， 是 有 目的 性 的 玲 虫 ， 学 习 成 本 相对 较 低 。 

我 们 常 说 的 网 络 爬 虫 大 多 数 以 聚焦 稚 虫 为 主 , 其 原理 和 过 程 与 通用 怜 虫 大 致 相同 ， 
读者 在 编写 息 虫 程序 的 时 候 ， 需 要 以 设 定 的 仆 虫 规则 和 有 息 取 目标 为 主导 ， 这 样 更 具 较 
强 的 目的 性 。 

某 些 网 站 为 防止 恶意 息 取 ， 常 会 采用 反扑 技术 ， 常 用 的 反扑 虫 技术 主要 有 以 下 
几 种 : 





(1) 用 户 请 求 的 Headers。 
(2) 用 户 操 作 网 站 行为 。 
(3) 网 站 目录 数据 加 载 。 
(4) 数据 加 密 。 

(5) 验证 码 识别 。 


每 一 种 反扑 虫 技术 都 有 相对 应 的 解决 方案 ， 在 分 析 网 站 的 时 候 ， 能 从 网 站 的 设计 
结构 得 知 是 否 设 置 了 反扑 虫 技术 ， 如 请 求 涉 、 用 户 登录 需要 验证 码 、 数 据 生 成 方式 、 
请 求 参 数 是 否 加 密 等 ,了 解 这 些 反扑 虫 技术 对 编写 有 实用 价值 的 候 虫 程序 也 很 有 意义 。 
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.1 HTTP 5 HTTPS 





HTTP 是 一 个 客户 端 和 服务 器 端 请 求 和 应 答 的 标准 CTCP) 。 客 户 端 是 终端 用 户 ， 
服务 器 端 是 网 站 。 通 过 使 用 Web 浏览 器 、 网 络 朴 虫 或 者 其 他 工具 ， 客 户 端 发 起 一 个 
到 服务 器 上 指定 端口 (默认 端口 为 80) 的 HTTP 请 求 。 这 个 客户 端 叫 用 户 代理 (User 
Agent) 。 响 应 的 服务 器 上 存储 着 资源 ， 比 如 HIML 文件 和 图 像 ， 这 个 服务 器 为 源 服 
务 器 (Origin Server) ， 在 用 户 代 理 和 服务 器 中 间 可 能 存在 多 个 中 间 层 ， 比 如 代理 、 
网 关 或 者 隧道 (Tunnels) 。 

通常 ,由 HTTP 客 户 端 发 起 一 个 请 求 , 建立 一 个 到 服务 器 指定 端口 (默认 是 80 端 口 ) 
的 TCP 连接 ，HTTP 服务 器 则 在 那个 端口 监听 客户 端 发 送 过 来 的 请 求 ， 一 旦 收 到 请 求 ， 
服务 器 (向 客户 端 ) 发 回 一 个 状态 行 〈 比 如 "HITP/1.1 200 OK") 和 《响应 的 ) 消息 ， 
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消息 的 消息 体 可 能 是 请 求 的 文件 、 错 误 消 息 或 者 其 他 一 些 信息 。 

在 浏览 器 的 地 址 栏 输入 的 网 站 地 址 叫 作 URL (Uniform Resource Locator， 统 一 资 
源 定 位 符 ) 。 就 像 每 家 每 户 都 有 一 个 门牌 地 址 一 样 , 每 个 网 页 也 都 有 一 个 Internet 地 址 。 
在 浏览 器 的 地 址 框 中 输入 一 个 URL 或 单 击 一 个 超级 URL Ff, URL 就 确定 了 要 浏览 的 
地 址 ， 向 服务 器 发 送 一 次 请 求 ， 浏 览 器 通过 超 文本 传输 协议 (HTTP) 传送 到 服务 器 ， 
服务 器 根据 请 求 头 做 出 相应 的 响应 ， 将 响应 数据 返回 到 客户 端 ， 客 户 端 收 到 响应 内 容 
后 ， 通 过 浏览 器 翻译 成 网 页 。 

HTTP 协议 传输 的 数据 都 是 未 加 密 的 ， 也 就 是 明文 的 数据 ， 因 此 使 用 HTTP 协议 
传输 隐私 信息 非常 不 安全 。 为 了 保证 这 些 隐私 数据 能 加 密 传输 ， 于 是 网 景 公司 设计 了 
SSL (Secure Sockets Layer) 协议 用 于 对 HTTP 协议 传输 的 数据 进行 加 密 ， 从 而 诞生 
T HTTPS. 

HTTPS 在 传输 数据 之 前 需要 客户 端 (浏览 器 ) 与 服务 端 (网 站 ) 之 间 进 行 一 次 握手 ， 
在 握手 过 程 中 将 确立 双方 加 密 传输 数据 的 密码 信息 。TLS/SSL 协议 不 仅 是 一 套 加 密 传 
输 的 协议 ， 更 是 一 件 经 过 艺术 家 精心 设计 的 艺术 品 ，TLS/SSL 中 使 用 了 非 对 称 加 密 、 
对 称 加 密 以 及 HASH 算法 。 握 手 过 程 的 简单 描述 如 下 : 

(1) 浏览 器 将 自己 支持 的 一 套 加 密 规 则 发 送 给 网 站 。 

(2) 网 站 从 中 选 出 一 组 加 密 算法 与 HASH 算法 ， 并 将 自己 的 身份 信息 以 证 书 的 
形式 发 回 给 浏览 器 。 证 书 里 面包 含 网 站 地 址 、 加 密 公 钥 以 及 证 书 的 颁发 机 构 等 信息 。 

(3) 获得 网 站 证 书 之 后 浏览 器 要 做 以 下 工作 : 


O 验证 证 书 的 合法 性 《如 颁发 证 书 的 机 构 是 否 合法 、 证 书 中 包含 的 网 站 地 址 是 
否 与 正在 访问 的 地 址 一 致 等 ) ， 如 果 证 书 受信 任 ， 浏 览 器 栏 就 会 显示 一 个 小 锁 头 ， 否 
则 会 给 出 证 书 不 受信 任 的 提示 。 

@ 如 果 证 书 受 信任 或 者 用 户 接受 了 不 受信 任 的 证 书 ， 浏 览 器 就 会 生成 一 串 随机 
数 的 密码 ， 并 用 证 书 中 提供 的 公 钥 加 密 。 

© 使 用 约定 好 的 HASH 计算 握手 消息 ， 并 使 用 生成 的 随机 数 对 消息 进行 加 密 ， 
最 后 将 之 前 生成 的 所 有 信息 发 送 给 网 站 。 
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(4) 网 站 接收 浏览 器 发 来 的 数据 之 后 要 做 以 下 操作 : 


CD 使 用 自己 的 私 钥 将 信息 解密 并 取出 密码 ， 使 用 密码 解密 浏览 器 发 来 的 握手 消 
息 ， 并 验证 HASH 是 否 与 浏览 器 发 来 的 一 致 。 
@ 使 用 密码 加 密 一 段 握手 消息 ， 发 送 给 浏览 器 。 


(5) 如 果 浏 览 器 解密 并 计算 握手 消息 的 HASH 与 服务 端 发 来 的 HASH 一 致 ， 此 
时 握手 过 程 结 束 ， 之 后 所 有 的 通信 数据 将 使 用 之 前 浏览 器 生成 的 随机 密码 ， 并 利用 对 
称 加 密 算 法 进行 加 密 。 


浏览 器 与 网 站 互相 发 送 加 密 的 握手 消息 并 验证 ， 目 的 是 保证 双方 都 获得 一 致 的 密 
码 ， 并 且 可 以 正常 地 加 密 、 解 密 数 据 ， 为 真正 数据 的 传输 做 一 次 测试 。 另 外 ，HTTPS 
一 般 使 用 的 加 密 与 HASH 算法 如 下 。 


(1) 非 对 称 加 密 算法 : RSA、DSA/DSS。 
(2) 对 称 加 密 算法 : AES. RC4. 3DES. 
(3) HASH 算法 : MD5、SHA1、SHA256。 


其 中 ， 非 对 称 加 密 算 法 用 于 在 握手 过 程 中 加 密生 成 的 密码 ， 对 称 加 密 算法 用 于 对 
真正 传输 的 数据 进行 加 密 ， 而 HASH 算法 用 于 验证 数据 的 完整 性 。 由 于 浏览 器 生成 的 
密码 是 整个 数据 加 密 的 关键 ， 因 此 在 传输 的 时 候 使 用 非 对 称 加 密 算法 对 其 加 密 。 非 对 
称 加 密 算法 会 生成 公 钥 和 私 钥 ， 公 钥 只 能 用 于 加 密 数 据 ， 可 以 随意 传输 ， 而 网 站 的 私 
钥 用 于 对 数据 进行 解密 ， 所 以 网 站 都 会 非常 小 心地 保管 自己 的 私 钥 ， 防 止 泄漏 。 

TLS 握手 过 程 中 有 任何 错误 都 会 使 加 密 连 接 断 开 ， 从 而 阻止 隐私 信息 的 传输 。 正 
是 由 于 HTTPS 非常 安全 ， 攻 击 者 无 法 从 中 找到 下 手 的 地 方 ， 因 此 更 多 地 采用 假 证 书 
的 手法 来 欺骗 客户 端 ， 从 而 获取 明文 的 信息 。 


2.2 请 求 头 

请 求 头 描述 客户 端 向 服务 器 发 送 请 求 时 使 用 的 协议 类 型 、 所 使 用 的 编码 以 及 发 送 
内 容 的 长 度 等 。 客 户 端 〈 浏 览 器 ) 通过 输入 URL 后 确定 等 于 做 了 一 次 向 服务 器 的 请 
求 动 作 ， 在 这 个 请 求 里 面 带 有 请 求 参数 ， 请 求 头 在 网 络 爬 虫 中 的 作用 是 相当 重要 的 一 
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部 分 。 检 测 请 求 头 是 常见 的 反 怜 虫 策略 ， 因 为 服务 器 会 对 请 求 头 做 一 次 检测 来 判断 这 
次 请 求 是 人 为 的 还 是 非 人 为 的 。 为 了 形成 一 个 良好 的 代码 编写 规范 ， 无 论 网 站 是 否 做 
Headers 反 息 虫 机 制 ， 最 好 每 次 发 送 请 求 都 添加 请 求 头 。 

请 求 头 的 参数 如 下 。 


(1) Accept: text/htmlimage/* (浏览 器 可 以 接收 的 类 型 ) 。 

(2) Accept-Charset: ISO-8859-1 (浏览 器 可 以 接收 的 编码 类 型 ) 。 

(3) Accept-Encoding: gzip.compress 〈 浏 览 器 可 以 接收 压缩 编码 类 型 ) 。 

(4) Accept-Language: en-us,zh-cn〈 浏 览 器 可 以 接收 的 语言 和 国家 类 型 ) 。 

(5) Host: 请 求 的 主机 地 址 和 端口 。 

(6) If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT ( 某 个 页 面 的 缓存 时 间 ) 。 

(7) Referer: 请 求 来 自 于 哪个 页 面 的 URL. 

(8) User-Agent: Mozilla/4.0 (compatible, MSIE 5.5, Windows NT 5.0， 浏 览 器 
相关 信息 ) 。 

(9) Cookie: 浏览 器 暂 存 服务 器 发 送 的 信息 。 

(10) Connection: close(1.0)/Keep-Alive(1.1) CHTTP 请 求 版 本 的 特点 ) 。 

(11) Date: Tue, 11 Jul 2000 18:23:51 GMT. (请求 网 站 的 时 间 》。 


一 个 标准 的 请 求 基本 上 都 带 有 以 上 属性 。 在 网 络 怜 虫 中 ， 请 求 头 一 定 要 有 User- 
Agent, Rf B5 Ji P RT EUER D Sc adt S D, DSL JURE ER 8: UTE SR SL Referer 和 
User-Agent, [fj Cookie 不 能 添加 到 请 求 头 。 除 此 之 外 ， 还 有 一 些 比较 特殊 的 请 求 头 
信息 ， 如 Upgrade-Insecure-Requests (告诉 服务 器 ， 浏 览 器 可 以 处 理 HTTPS 协议 ) 、 
X-Requested-With. (判断 是 否 Ajax 请 求 ) 等 。 


以 下 是 Python 里 面 一 个 完整 的 请 求 头 ， 以 字典 格式 生成 ， 代 码 如 下 : 


Headers = ( 
'Accept': 'text/html,application/xhtml-*xml, 
application/xml;q-0.9 ,*/*;q-0.8', 
'Accept-Language': 'zh-CN,zh;q-0.8', 
'Cache-Control': 'max-age-0', 
'User-Agent': ' Mozilla/5.0 (Windows NT 6.3; 
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WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 


'Connection': 'keep-alive', 
'Referer': 'https://movie.douban.com/'] 
2.3 Cookies 
— 





Cookies 也 可 以 称 为 Cookie， 指 某 些 网 站 为 了 辨别 用 户 身份 、 进 行 Session 跟踪 
而 储存 在 用 户 本 地 终端 上 的 数据 。 

一 个 Cookies 就 是 存储 在 用 户主 机 浏览 器 中 的 文本 文件 。Cookies 是 纯 文 本 形式 ， 
它们 不 包含 任何 可 执行 代码 。 服 务 器 告诉 浏览 器 将 这 些 信息 存储 ， 并 且 每 个 请 求 中 都 
将 该 信息 返回 到 服务 器 。 服 务 器 之 后 可 以 利用 这 些 信息 来 标识 用 户 。 多 数 需要 登录 的 
网 站 通常 会 在 用 户 登 录 后 将 用 户 信息 写 入 Cookies， 只 要 这 个 Cookies 存在 并 且 合 法 ， 
就 可 以 自由 地 浏览 这 个 网 站 的 所 有 站 点 。Cookies 只 是 包含 数据 ， 就 其 本 身 而 言 并 不 
有 害 。 

服务 器 可 以 利用 Cookies 包含 的 信息 判断 在 HITP 传输 中 的 状态 。Cookies 最 典 
型 的 应 用 是 判定 注册 用 户 是 否 已 经 登录 网 站 和 保留 用 户 信息 以 便 简化 登录 手续 。 

一 般 Cookies 所 具有 的 属性 如 下 。 


* Domain: 域 ,表示 当前 Cookies 属于 哪个 域 或 子 域 下 面 。 

e Path: 表示 Cookies 的 所 属 路 径 。 

* Expire Time/Max-Age: 表示 Cookies 的 有 效 期 。 

* Secure: 表示 该 Cookies 只 能 用 HTTPS 传输 。 

e  Httponly: 表示 此 Cookies 必须 用 HTTP A HTTPS 传输 。 

e HasKeys: 通过 该 值 指示 Cookie 是 否 含 有 子 键 ， 返 回 一 个 bool 值 。 
e Name: 表示 Cookie 的 名 称 。 

e Value: 单个 Cookie 的 值 。 

e Values: 单个 Cookie 所 包含 的 键 值 对 的 集合 。 
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Cookies 的 优点 如 下 。 


COD 极 高 的 扩展 性 和 可 用 性 。 

(2) 通过 良好 地 编程 控制 保存 在 Cookie 中 的 Session 对 象 的 大 小 。 
(3) 通过 加 密 和 安全 传输 技术 CSSL) 减少 Cookie 被 破解 的 可 能 性 。 
(4) 只 在 Cookie 中 存放 不 敏感 数据 ， 即 使 被 盗 也 不 会 有 重大 损失 。 
(5) 可 控制 Cookie 的 生命 期 ， 使 之 不 会 永远 有 效 。 


Cookies 的 缺点 如 下 。 
(1) Cookie 数量 和 长 度 的 限制 。 每 个 domain 最 多 只 能 有 20 条 Cookie， 每 个 
Cookie 长 度 不 能 超过 4KB， 和 否则 会 被 截 掉 。 
(2) 安全 性 问题 。 如 果 Cookie 被 拦截 ， 就 有 可 能 被 取得 所 有 的 Session 信息 。 


(3) 某 些 状态 不 可 保存 在 客户 端 。 例 如 ， 为 了 防止 重复 提交 表单 ， 需 要 在 服务 
器 端 保存 一 个 计数 器 。 如 果 把 这 个 计数 器 保存 在 客户 端 ， 那 么 它 起 不 到 任何 作用 。 


2.4 HTML 





HTML 是 超 文本 标记 语言 ， 标 准 通 用 标记 语言 下 的 一 个 应 用 。“ 超 文本 ”就 是 指 
页 面 内 可 以 包含 图 片 、 链 接 ， 甚 至 音乐 、 程 序 等 非 文字 元 素 。 超 文本 标记 语言 的 结构 
包括 “ 头 ”部 分 (Head) 和 “主体 ”部 分 (Body) ， 其 中 “ 头 ”部 分 提供 关于 网 页 的 
信息 ，“ 主 体 ” 部 分 提供 网 页 的 具体 内 容 。 


JE JF RI HTML 的 要 求 是 能 看 懂 HTML 各 个 标签 的 含义 ， 了 解 标签 的 属性 作 
用 以 及 整个 HTML 布局 设计 。 从 一 个 简单 的 HTML 开始 了 解 : 

<!DOCTYPE html» 4 声明 为 HTML5 文档 

«html» 元 素 是 HTML 页 面 的 根 元 素 

<head># 元 素 包 含 了 文档 的 元 (meta) 数据 

«meta charset="utf-8"># 元 素 可 提供 有 关 页 面 的 元 信息 (meta-information) ， 
主要 是 描述 和 关键 词 

<title>Python</title># 元 素描 述 了 文档 的 标题 

</head> 

<body> # 元 素 包含 了 可 见 的 页 面 内 容 
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«hl» 我 的 第 一 个 标题 </h1> 4 定义 一 个 标题 
«p» 我 的 第 一 个 段落 。</p> 4 元 素 定义 一 个 段落 
</body> 

</html> 


一 个 完整 的 网 页 必定 以 <html></html> 为 开头 和 结尾 , 整个 HTML 可 分 为 两 部 分 : 


(I) <head></head>， 主 要 是 对 网 页 的 描述 、 图 片 和 JavaScript 的 引用 。<head> 

元 素 包含 所 有 的 头 部 标签 元 素 。 在 <head> 元 素 中 可 以 插入 脚本 〈scripts) 、 样 式 文件 
(CSS) 及 各 种 meta 信息 。 该 区 域 可 添加 的 元 素 标签 有 <title>、<style>、<meta>、 
<link>、<script>、<noscript> 和 <base>。 

(2) <body></body> 是 网 页 信息 的 主要 载体 。 该 标签 下 还 可 以 包含 很 多 类 别 的 
标签 ， 不 同 的 标签 有 不 同 的 作用 ， 标 签 以 — 开头， 以 </> 结尾， 全 和 </> 之 间 的 内 
容 是 标签 的 值 和 属性 ， 每 个 标签 之 间 可 以 是 相互 独立 的 ， 也 可 以 是 幅 套 、 层 层 递 进 的 
关系 。 


根据 这 两 个 组 成 部 分 就 能 很 容易 地 分 析 整 个 网 页 的 布局 。 其 中 ，<body></body> 
是 整个 HTML 的 重点 部 分 ， 通 过 示例 讲述 如 何 分 析 <body></body>: 


<body> 

<h1> 我 的 第 一 个 标题 </h1> 
«div» 

<p> Pythonc/p» 
«/div» 

<h2> 

<p> 

<a> Python</a> 
</p> 

</h2> 

</body> 


上 述 例子 分 析 如 下 : 
(1) <hl> £l <div> 是 两 个 不 相关 的 标签 ， 两 个 标签 是 相互 独立 的 。 


(2) «div» 和 <p> 是 嵌 套 关系 ，<p> 的 上 一 级 标签 是 <div>。 
(3) <hl> 和 <p> 这 两 个 标签 是 毫 无 关系 的 。 
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(4) <h2> 标签 包含 一 个 <p> 标签 ，<p> 标签 再 包含 一 个 <a> 标签 ， 一 个 标签 可 
以 包含 多 个 标签 在 其 中 。 
除 上 述 示例 的 标签 之 外 ， 大 部 分 标签 都 可 以 在 <body></body> 中 添加 ， 常 用 的 标 
签 如 表 2-1 所 示 。 


表 2-1 HTML 常 用 的 标签 





























2.5 JavaScript 


JavaScript 是 一 种 直译 式 脚本 语言 ， 是 一 种 动态 类 型 、 弱 类 型 、 基 于 原型 的 语言 ， 
内 置 支持 类 型 。 它 的 解释 器 被 称 为 JavaScript 引擎 ， 为 浏览 器 的 一 部 分 ， 广 泛 用 于 客 
户 端的 脚本 语言 ， 最 早 是 在 HIML (标准 通用 标记 语言 下 的 一 个 应 用 ) 网 页 上 使 用 的 ， 
用 来 给 HTML 网 页 增加 动态 功能 。 

JavaScript 脚本 语言 同 其 他 语言 一 样 ， 有 自身 的 基本 数据 类 型 、 表 达 式 和 算术 运 
算 符 及 程序 的 基本 框架 。JavaScript 提供 了 4 种 基本 的 数据 类 型 和 两 种 特殊 数据 类 型 
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来 处 理 数据 和 文字 。 而 变量 提供 存放 信息 的 地 方 ， 表 达 式 则 可 以 完成 较 复杂 的 信息 
处 理 。 


有 时 候 分 析 网 站 需要 理解 某 些 JavaScript 的 功能 ， 如 某 些 特殊 的 数据 会 存放 在 
JavaScript 中 。 以 12306 全 国 站 点 为 例 ， 如 图 2-1 所 示 。 

















€ > Q A 不 安全 | https://kyfw.12306.cn/otn/resources/js/framework/station name js?station version=1.9031 





南 |12Q|guangzhounan|gzn|58cqb| 重 庆 北 |CUW|chongqingbei |cgb|6@cqi | 重庆 |CQW|chongqing|cq|78cqn| 重 庆 南 |CRW chongqingnan|cgn|8@gz 
海南 |SNH|shanghainan|shn|118shq| 上 海 虹桥 |AOH| shanghaihongqiao| shhq|12eshx| 上 海 西 |SXH| shanghaixi | shx | 130t jb | Kik | TRP | tianjii 
南 |TIP|tianjinnan|tjn|168tjx| 天 津 西 |TXP|tianjinxi|tjx|17@cch| 长 春 |CCT|changchun|cc| 18eccn| 长 春 南 |CET|changchunnan|ccn|198ccx| 
东 | ICW|chengdudong| cdd|218cdn | 成 都 南 |CNW| chengdunan | cdn |22@cdu | 成 都 |CDW|chengdu|cd|23@csh| 长 沙 | CSQ| changsha | cs 24@csn| 长 沙 南 | 
南 |FYS|fuzhounan|fzn|27@gya| 贵 阳 |GIW| guiyang|gy|28@gzh| 广 州 |GzQ| guangzhou|gz|298gzx| 广州 西 |GXQ| guangzhouxi |gzx| 30@heb| 哈 尔 滨 | 
西 | VAB | haerbinxi |hebx |336hfe | ^I | HFH | hefei hf |340hfx | SEM |HTH|hefeixi |hfx|350hhd | 呼和浩特 东 |NDC|huhehaotedong|hhhtd| 366hh| 
东 | KEQ|haikoudong|hkd| 38@hkd| 海 口 东 |BMQ|haikoudong|hkd|398hko| 海 口 |YUQ|haikou|hk|40@hzd| 杭 州 东 | GH | hangzhoudong |hzd | 41dhzh | | 
南 JNK| jinan| jn|44@jnd| 济 南 东 |JAK| jinandong | jnd|45@jnx| 济 南西 |JGK| jinanxi | jnx | 468kmi | 昆明 |KMM|kunming|jkm|47&kmx| 昆 明 西 |KXM| 

东 | LVJ|lanzhoudong| 1zd| 5081zh | 兰州 |LZJ|lanzhou|1z|5181zx| 兰州 西 |LAJ| lanzhouxi | 1zx| 526nch | I]. [NOG | nanchang nc |53@nji | RIIK ul 
es hn: A n pi mre ULT en ii ei perti er hee P 


var station names = @bjb| 北 京北 |VAP |bei jingbei|bjb|08b jd JLA |BOP | bei jingdong b jd | 10b ji | JL PRG cogn cn 


































图 2-1 12306 站 点 信息 


从 图 2-1 中 可 以 看 到 ， 不 同 的 站 点 有 对 应 的 英文 字母 ， 代 表 站 点 的 编码 信息 ， 
JavaScript 存储 数据 主要 以 变量 的 形式 。 

JavaScript 还 能 根据 用 户 触发 某 些 事件 对 用 户 的 操作 进行 加 工 处 理 。 例 如 用 户 登 
录 信 息 设置 加 密 处 理 ， 原 理 是 先 对 用 户 提交 信息 做 加 密 处 理 ， 然 后 发 送 请 求 到 服务 器 ， 
这 一 系列 事件 由 JavaScript 独立 完成 。 要 在 爬虫 实现 该 功能 ， 就 要 分 析 JavaScript 如 
何 执行 整个 用 户 登 录 过 程 。 

分 析 一 个 简单 的 例子 ， 进 一 步 了 解 JavaScript 事件 触发 原理 : 





<!DOCTYPE html» 
«html» 
<head> 
<meta charset="utf-8"> 
<script> «!-- //JavaScript 代码 --» 
function validateForm() ( 
var x = document.forms["myForm"] ["fname"].value; 
if (x == null || x == "") ( 
alert(" 需要 输入 名 字 。") ; 
return false; 
) 
else(alert (" 你 的 名 字 提 交 成 功 ") ) 
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</script> 

</head> 

<body> 

<!-- //html 表单 ， 当 点 击 按钮 " EX" 后 会 触发 onsubmit 这 个 事件 ， 执 行 
JavaScript 代码 --> 

<form name-"myForm" action-"" onsubmit-"return validateForm()" 
method-"post"» 

名 字 : «input type="text" name-"fname"» 

«input type="submit" value=" 提交 "> 

</form> 

</body> 

</html> 


JavaScript 事件 的 触发 过 程 : 


(1) HTML 根据 <form></form> 标签 相应 地 生成 一 个 表单 。 


(2) 当 用 户 在 表单 输入 内 容 后 ， 单 击 提交 按钮 ， 就 会 触发 <form></form> 表单 
里 所 指向 validateFormO 方法 ， 执 行 相应 的 JavaScript 代码 。 


(3) validateForm() 会 判断 输入 的 值 是 否 为 空 。 如 果 输 入 的 值 为 空 ， 就 提示 输入 
名 字 ; 若 输 入 的 值 不 为 空 ， 则 提示 “提交 成 功 ”。 


.6 JSON 





JSON (JavaScript Object Notation, JS 对 象 标记 ) 是 一 种 轻 量 级 的 数据 交换 格式 ， 
采用 完全 独立 于 编程 语言 的 文本 格式 来 存储 和 表示 数据 。 简 洁 和 清晰 的 层次 结构 使 得 
JSON 成 为 理想 的 数据 交换 语言 ， 易 于 阅读 和 编写 ， 同 时 也 易于 机 器 解析 和 生成 ， 并 
有 效 地 提升 网 络 传输 效率 。 


在 JS 语言 中 ， 一 切 都 是 对 象 。 因 此 ， 任 何 支持 的 类 型 都 可 以 通过 JSON 来 表示 ， 
例如 字符 串 、 数 字 、 对 象 、 数 组 等 。JSON 格式 说 明 如 下 : 

(1) 对 象 表示 为 键 值 对 。 

(2) 数据 由 逗号 分 隔 。 

G) 花 括 号 保存 对 象 。 
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(4) 方 括号 保存 数组 。 


JSON 的 书写 格式 是 : 键 / 值 对 ， 包 括 字段 名 称 〈 字 符 串 ) ， 后 面 写 一 个 冒号 ， 
然后 是 值 。 例 如 “name”:“Tom”， 等 价 于 JavaScript 语句 : name= "Tom" 

JSON 的 值 可 以 是 数字 (整数 或 浮 点 数 ) 、 字 符 串 、 逻 辑 值 (True 或 False) 、 数 
组 (在 方 括号 中 ) 、 对 象 〈 在 花 括 号 中 ) 和 Null。 

例子 如 下 : 


MyJSon = ( 

"name": "Python", 

"address" : ( "province" : "Jf", "city" : "JAM ") 
) 


JSON 的 格式 是 用 花 括 号 表示 的 ， 代 码 MyJSon 里 包含 两 个 属性 ， 分 别 是 name 和 
address, name 的 值 是 “Python”; address AEREI JSON， 里 面包 含 province 
和 city 属性 ， 值 为 “广东 ”和 “广州 ”。 

一 个 JSON EH UREA JSON, EA URE JSON 数组 ， 都 是 以 键 - 值 的 形 
式 表现 。 在 数据 结构 上 ，JSON 与 Python 里 的 字典 非常 相似 。 


2.7 Ajax 





Ajax 不 是 一 种 新 的 编程 语言 ， 而 是 一 种 用 于 创建 更 好 、 更 快 以 及 交互 性 更 强 的 
Web 应 用 程序 的 技术 。 使 用 JavaScript 向 服务 器 提出 请 求 并 处 理 响应 而 不 阻塞 用 户 ， 
核心 对 象 是 XMLHTTPRequest。 通 过 这 个 对 象 ，JavaScript 可 在 不 重 载 页 面 的 情况 下 
与 Web 服务 器 交换 数据 ， 即 在 不 需要 刷新 页 面 的 情况 下 就 可 以 产生 局 部 刷新 的 效果 。 

Ajax 在 浏览 器 与 Web 服务 器 之 间 使 用 异步 数据 传输 CHTTP 请 求 ) ， 这 样 就 可 
以 使 网 页 从 服务 器 请 求 少量 的 信息 ， 而 不 是 整个 页 面 。 

JavaScript, XML, HTML 与 CSS 在 Ajax 中 使 用 的 Web 标准 已 被 良好 定义 ， 并 
被 所 有 的 主流 浏览 器 支持 ，Ajax 应 用 程序 独立 于 浏览 器 和 平台 。 

Web 应 用 程序 比 桌面 应 用 程序 有 优势 ， 能 够 涉及 广大 的 用 户 ， 更 易 安 装 及 维护 ， 
也 更 易 开 发 。 
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判断 网 页 数据 是 否 使 用 Ajax 最 简单 的 方法 : 触发 事件 之 后 ， 判 断 网 页 是 否 发 生 
刷新 状态 。 如 果 网 页 没有 发 生 刷新 ， 数 据 就 自动 生成 ， 说 明 数 据 的 加 载 是 通过 Ajax 
生成 并 泻 染 到 网 页 上 的 ;， 反 之， 数据 是 通过 服务 器 后 台 生 成 并 加 载 的 。 

两 种 数据 加 载 演 染 方式 分 别 由 前 端 和 后 端 完成 ， 实 现 的 方式 和 原理 也 不 同 。 判 断 
数据 加 载 方式 是 疏 虫 开发 必 备 的 基本 技能 之 一 ， 正 确 地 判断 数据 加 载 方式 才能 找到 数 
据 来 源 的 渠道 ， 最 终 才能 找到 抓 取 的 目标 。 


2.8 本 章 小 结 


本 章 主要 介绍 了 与 编写 爬虫 程序 相关 的 Web 前 端 开发 技术 。 

前 端 开发 技术 是 爬虫 开发 人 员 必 备 技能 之 一 ， 也 是 编写 爬虫 程序 的 基础 。 前 端 技 
术 的 主要 作用 是 分 析 各 类 网 站 的 设计 架构 ， 以 便 有 针对 性 地 编写 聆 虫 脚本 。 从 整个 疏 
虫 开 发 周期 来 看 , 分析 网 站 架构 是 最 为 耗 时 的 一 环 , 也 是 怜 虫 开 发 的 核心 之 一 , 可 以 说 ， 
有 假 虫 的 开发 都 是 基于 网 站 的 分 析 为 前 提 。 

关于 前 端 开发 技术 ， 读 者 应 重点 掌握 以 下 内 容 。 





e HTTP 与 HTTPS: 互联 网 上 应 用 最 为 广泛 的 一 种 网 络 协议 。 目 前 所 有 网 站 开 
发 都 基于 该 协议 ， 也 是 网 站 的 实现 原理 。 

e 请 求 头 : 基于 HTTP 与 HTTPS 协议 实现 ， 其 作用 是 在 通信 之 间 实 现 信息 传递 。 
热 知 各 种 请 求 类 型 ， 对 爬虫 中 编写 请 求 头 有 指导 性 作用 。 

e Cookies: 存储 在 用 户主 机 浏览 器 中 的 文本 文件 ， 主 要 让 服务 器 识别 各 个 用 户 
身份 信息 。 

e HTML: 服务 器 返回 的 网 页 内 容 ， 一 般 由 服务 器 后 台 生成 。 网 站 大 部 分 数据 来 
HTL, RA HTML 布局 和 各 个 标签 的 作用 ， 有 利于 数据 抓 取 和 清洗 。 


e JavaScript: 主要 实现 网 页 的 动态 功能 以 及 用 户 交互 。 要 懂得 分 析 JavaScript 代 
码 ， 尤 其 是 数据 加 密 处 理 。 


© JSON: 表示 一 个 JavaScript 对 象 的 信息 ， 本 质 是 一 个 特殊 的 字符 串 。 
日 Ajax 主要 是 前 端 数据 加 载 和 泻 染 技术 ， 其 响应 内 容 大 部 分 以 JSON 格式 为 主 。 
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Chrome 分 析 网 站 


3.1 Chrome 开发 工具 





浏览 器 是 从 事 编程 开发 人 员 必 备 的 开发 工具 。 世 界 上 五 大 主流 浏览 器 分 别 是 : 
IE. Opera. Google Chrome. Safari 和 Firefox。 其 中 ，Chrome 和 Firefox 是 编程 开发 
人 员 的 首选 ， 主 要 是 两 者 运行 速度 、 扩 展 性 和 用 户 体验 都 符合 开发 人 员 所 需 。 

本 书 选择 Chrome 作为 分 析 网 站 的 工具 ， 因 为 其 简洁 、 速 度 快 〈 无 论 是 启动 速度 、 
页 面 解析 速度 还 是 JavaScript 执行 速度 ) ， 对 HTMLS 和 CSS3 的 支持 也 比较 完善 。 

以 分 析 豆 办 电影 为 例 ， 先 打开 Chrome 浏览 器 ， 进 入 豆瓣 电影 网 页 (https:/movie. 
douban.com/) 。 单 击 Chrome 的 开发 者 工具 (快捷 键 : F12) ， 如 图 3-1 所 示 。 
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图 











Ctrl+Shift+I 组 合 键 ， 如 图 3-2 所 示 。 


开发 者 了 


Memory、 


Chrome 开发 者 工具 以 Web RIE, WRA FIE 
虫 分 析 ， 熟 练 掌握 Elements 和 Network 标签 就 能 满足 大 





Application, Security 和 Audits. 


MERER. HP, Network 是 核心 部 分 。 


3.2 Elements 标签 


[有 具 的 界面 共有 9 个 标签 页 ， 分 别 是 : 


Elements、Console、Sources、Network、Performance、 


3-1 开发 者 模式 
还 可 以 通过 在 网 页 上 右 击 ， 选 择 “检查 ”， 或 者 按 








返回 (B) Alt+ 向 左 箭头 
Big) Alt+ 向 右 箭头 
重新 加 载 (R) CtrleR 
另存 为 (A).… Ctn+S 
打印 (P)… Ctrl+P 
KHO.. 

翻 成 中 文 (简体 ) (D 

查看 网 页 源 代码 (V) Ctrl+U 
检查 (N) Ctrl+Shift+1 





3-2 开发 者 模式 





在 Elements 标签 页 允许 从 浏览 器 的 角度 看 页 





编辑 内 容 更 改 页 面 显 示 效 果 ， 如 图 3-3 所 示 。 


从 图 
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面 ， 也 就 是 说 可 以 看 到 Chrome 演 染 
页 面 所 需要 的 HTML. CSS 和 DOM (Document Object Model) 对 象 。 此 外 ， 


还 可 以 





PAn MeS 。 ë 电视剧 


Hüte — 分 类 mw 


2016 年 度 榜 单 。 ”2016 观 影 报告 
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movie/bundle.css" rel="stylesheet" type="text/css"> 
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图 3-3 Elements 标签 页 


3-3 可 以 看 出 ， 在 Elements 标签 最 左边 的 按钮 用 于 快速 查找 网 页 元 素 ， 舌 


D 














Elements 标签 分 成 两 部 分 , 分 别 在 图 3-3 
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击 该 按钮 后 ， 在 网 页 上 某 一 处 单 击 ， 就 会 自动 显示 并 选中 该 元 素 在 HTML. 里 的 位 置 。 








中 标 为 区 域 1 和 区 域 2, 两 个 区 域 相辅相成 。 
区 域 1 显示 整个 网 页 的 HTML 信息， 单刀 
选中 某 一 行内 容 的 时 候 ， 区 域 2 的 Styles 标 
签 会 显示 当前 点 击 选 中 内 容 的 CSS 样式 ， 
并 可 对 元 素 的 CSS 进行 查看 与 编辑 修改 ， 
Computed 显示 当前 选中 的 边 距 属性 、 边 
框 属性 ， 用 图 像 显 示 一 个 整体 效果 ，Event 
Listeners 是 整个 网 页 事件 触发 的 JavaScript. 
如 图 3-4 所 示 。 
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> DOHContentLoaded 

> beforeunload 

Y click 
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> load 
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图 3-4 Event Listeners 


通过 单 击 Event Listeners 下 的 某 个 JavaScript 会 自动 跳 转 到 Sources 标签 ， 显 示 
当前 JavaScript 的 源码 ， 这 个 功能 可 快速 找到 JavaScript 代码 所 在 的 位 置 ， 对 分 析 





JavaScript 起 到 快速 定位 作用 。 


3.3 Network 标签 





在 Network 标签 页 可 以 看 到 页 面向 服务 器 请 求 的 信息 、 请 求 的 大 小 以 及 加 载 请 求 
花费 的 时 间 。 从 发 起 网 页 页 面 请 求 Request 后 分 析 HTTP 请 求 得 到 各 个 请 求 信 息 〈 包 
括 状 态 、 类 型 、 大 小 、 所 用 时 间 、Request 和 Response 等 ) 。Network 结构 组 成 如 图 3-5 


所 示 。 
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图 3-5 Network 标签 页 
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Network 主要 包括 以 下 5 个 区 域 。 


e Controls: 控制 Network 的 外 观 和 功能 。 
* Filters: 控制 Requests Table 具体 显示 哪些 内 容 。 
> Al: 返回 当前 页 面 全 部 加 载 的 信息 ， 就 是 一 个 网 页 全 部 所 需要 的 代 
码 、 图 片 等 请 求 。 
> XHR: 筛选 Ajax 的 请 求 链接 信息 ， 前 面 讲 过 Ajax 核 心 对 象 
XMLHTTPRequest, XHR 取 于 XMLHTTPRequest 的 缩写 。 
> JS: 主要 筛选 JavaScript 文件 。 
> CSS: 主要 是 CSS 样式 内 容 。 
> Img: 是 网 页 加 载 的 图 片 ， 爬 取 图 片 的 URL 都 可 以 在 这 里 找到 。 
> Media: 是 网 页 加 载 的 媒体 文件 ， 如 MP3, RMVB 等 音频 视频 文件 资源 。 
> Doc: Æ HTML 文件 ， 主 要 用 于 响应 当前 URL 的 网 页 内 容 。 


e Overview: 显示 获取 到 请 求 的 时 间 轴 信息 ， 主 要 是 对 每 个 请 求 信 息 在 服务 器 
的 响应 时 间 进行 记录 。 这 个 主要 是 为 网 站 开发 优化 方面 提供 数据 参考 ， 这 里 
不 做 详细 介绍 。 


* Requests Table: 按 前 后 顺序 显示 所 有 捕捉 的 请 求 信 息 ， 单 击 请 求 信息 可 以 查 
看 该 详细 信息 。 


。 Summary: 显示 总 的 请 求 数 、 数 据 传输 量 、 加 载 时 间 信 息 。 


5 个 区 域 中 ，Requests Table 是 核心 部 分 ， 主 要 作用 是 记录 每 个 请 求 信息 。 但 每 次 
网 站 出 现 刷新 时 ， 请 求 列表 都 会 清空 并 记录 最 新 的 请 求 信息 ， 如 用 户 登 录 后 发 生 304 
跳 转 ， 就 会 清空 跳 转 之 前 的 请 求 信息 并 捕捉 跳 转 后 的 请 求 信息 。 

对 于 每 条 请 求 信息 ， 可 以 单 击 查看 该 请 求 的 详细 信息 ， 如 图 3-6 所 示 。 

每 条 请 求 信 息 划 分 为 以 下 5 个 标签 。 


e Headers: 该 请 求 的 HTTP 头 信息 。 
o Preview: 根据 所 选择 的 请 求 类 型 (JSON、 图 片 、 文 本 ) 显示 相应 的 预览 。 
è Response: 显示 HTTP 的 Response 信息 。 
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Filter CJ Regex (J Hide data URLs XHR JS CSS Img Media Font Doc WS Manifest 
X [Headers | Preview Response Cookies Timing 
> General | 0 
E jqueny.minjs > Response Headers (18) 
[O blankgif > Request Headers (10) 
[E] connect. wechat.png > Query String Parameters (4) 


[s] connect sina weibo.png 
[B] connect qq.png 

[E] dataimage/png;base... 
[O favicon.ico 

















图 3-6 请 求 信息 








Cookies: 显示 HTTP 的 Request 和 Response 过 程 中 的 Cookies 信息 。 
Timing: 显示 请 求 在 整个 生命 周期 中 各 部 分 花费 的 时 间 。 








常用 

















的 标签 有 Headers、Preview 和 Response。Headers 用 于 获取 请 求 链接 、 请 求 








头 和 请 求 参 数 ，Preview 和 Response 用 于 显示 服务 器 返回 的 响应 内 容 。 
Headers 标签 划分 为 以 下 4 部 分 。 





General: 记录 请 求 链接 、 请 求 方式 和 请 求 状态 码 。 
Response Headers: 服务 器 端的 响应 头 。 其 参数 说 明 如 下 。 


» 


» 


Cache-Control: 指定 缓存 机 制 ， 优 先 级 大 于 Last-Modified. 


Connection: 包含 很 多 标签 列表 ， 其 中 最 常见 的 是 Keep-Alive 和 Close， 
分 别 用 于 向 服务 器 请 求 保持 TCP 连接 和 断 开 TCP 连接 。 
Content-Encoding: 服务 器 通过 这 个 头 告诉 浏览 器 数据 的 压缩 格式 。 
Content-Length: 服务 器 通过 这 个 头 告诉 浏览 器 回 送 数据 的 长 度 。 
Content-Type: 服务 器 通过 这 个 头 告诉 浏览 器 回 送 数据 的 类 型 。 

Date: 当前 时 间 值 。 

Keep-Alive: Æ Connection 为 Keep-Alive 时 ， 该 字段 才 有 用 ， 用 来 说 明 服 
务 器 估计 保留 连接 的 时 间 和 允许 后 续 几 个 请 求 复 用 这 个 保持 着 的 连接 。 
Server: 服务 器 通过 这 个 头 告诉 浏览 器 服务 器 的 类 型 。 

Vary: 明确 告知 缓存 服务 器 按照 Accept-Encoding 字段 的 内 容 分 别 缓存 不 
同 的 版 本 。 
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* Request Headers: 用 户 的 请 求 头 。 其 参数 说 明 如 下 。 


> 


> 


> 


Accept: 告诉 服务 器 客户 端 支持 的 数据 类 型 。 

Accept-Encoding: 告诉 服务 器 客户 端 支持 的 数据 压缩 格式 。 
Accept-Charset: 可 接受 的 内 容 编码 UTF-8。 

Cache-Control: 缓存 控制 ， 服 务 器 控制 浏览 器 要 不 要 缓存 数据 。 
Connection: 处 理 完 这 次 请 求 后 ， 是 断 开 连接 还 是 保持 连接 。 

Cookie: 客户 可 通过 Cookie 向 服务 器 发 送 数据 ， 让 服务 器 识别 不 同 的 客 
户 端 。 

Host: 访问 的 主机 名 。 

Referer: 包含 一 个 URL， 用 户 从 该 URL 代表 的 页 面 出 发 访问 当前 请 求 的 
页 面 ， 当 浏览 器 向 Web 服务 器 发 送 请 求 的 时 候 ， 一 般 会 带 上 Referer， 告 
诉 服务 器 请 求 是 从 哪个 页 面 URL 过 来 的 ， 服 务 器 借 此 可 以 获得 一 些 信息 
用 于 处 理 。 

User-Agent: 中 文 名 为 用 户 代理 ， 简 称 UA， 是 一 个 特殊 字符 串 头 ， 使 得 
服务 器 能 够 识别 客户 使 用 的 操作 系统 及 版 本 、CPU 类 型 、 浏 览 器 及 版 本 、 
浏览 器 泻 染 引擎 、 浏 览 器 语言 、 浏 览 器 插件 等 。 


* Query String Parameters: 请 求 参数 。 主 要 是 将 参数 按照 一 定 的 形式 (GET 和 
POST) 传递 给 服务 器 ， 服 务 器 通过 接收 其 参数 进行 相应 的 响应 ， 这 是 客户 端 
和 服务 端 进行 数据 交互 的 主要 方式 之 一 。 
Headers 标签 的 内 容 看 起 来 很 多 ， 但 在 实际 使 用 过 程 中 ， 疏 虫 开 发 人 员 只 需 关 心 
请 求 链接 、 请 求 方式 、 请 求 头 和 请 求 参数 的 内 容 即 可 。 
而 Preview 和 Response 是 服务 器 返回 的 结果 ， 两 者 之 间 对 不 同类 型 的 响应 结果 有 
不 同 的 显示 方式 : 


CD 如 果 返 回 的 结果 是 图 片 ， 那 么 Preview 表示 可 显示 图 片 内 容 ，Response X 


示 无 法 显示 。 


(2) 如 果 返 回 的 是 HTML 或 JSON， 那 么 两 者 皆 能 显示 ， 但 在 格式 上 可 能 会 存 
在 细微 的 差异 。 
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3.4 分 析 QQ 音乐 

















现在 以 QQ 音乐 茶 一 歌手 页 面 的 分 析 为 例 (y.qq.com/n/yqq/singer/0025NhIN2yWrP4. 
htm 讲述 如 何 使 用 Chrome 开发 者 工具 分 析 网 站 ， 如 图 3-7 所 示 。 


Tu wa E 

















3-7 歌手 信息 


从 图 3-7 中 可 以 看 到 ， 在 Network 标签 下 捕捉 到 很 多 请 求 信息 ， 请 求 类 型 有 
document. png. font 和 script 等 ， 分 别 对 应 HTML 文件 、 图 片 、 字 体格 式 和 JS 脚本 。 

单 击 “Filters” 下 的 Doc 标签 (Doc 是 当前 网 页 的 HTML 文件 ) ， 发 现 有 两 个 请 
求 信息 ， 分 别 是 “0025NhIN2yWrP4.html” 和 “xhr_proxy_utf8.html”。 从 请 求 的 命名 
可 以 看 出 ， 第 一 个 请 求 与 网 站 的 URL 是 一 致 的。 再 查看 “0025NhIN2yWrP4.html” 的 
响应 内 容 (Preview 标签 ) ， 可 以 使 用 “Ctrl+F” 快 速 查找 歌曲 信息 ， 如 图 3-8 所 示 。 























263 requests | 107K3/15 | As ~ 











图 3-8 快速 查找 歌曲 信息 


























Rt 


Doc 中 虽 能 找到 歌曲 名 、 专 辑 和 时 长 ， 但 无 法 找到 更 多 的 歌曲 信息 。 歌 曲 信息 
有 可 能 是 由 其 他 方式 生成 的 , 网 站 数据 生成 只 有 前 端 (Ajax 或 JSONP) 和 后 端 (服务 器 ) 
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两 种 方式 。 从 图 3-8 
前 端 加 载 生成 的 。 





b 





返回 的 结果 来 看 ， 数 据 不 可 能 是 从 后 端 生成 的 ， 那 么 就 可 能 是 由 





es XS 提示 





JSONP (JSON With Padding) 是 JSON 的 一 种 “使 用 模式 ”， 
于 解决 主流 浏览 器 的 跨 域 数据 访问 问题 。 


可 用 





前 端 加 载 的 数据 有 可 能 记录 在 Chrome 开发 者 工具 的 “XHR” 或 “JS” 中 ， 分 别 





查看 两 个 标签 里 面 的 请 求 信息 , 最 终 发 现 歌曲 信息 存放 在 JS 下 的 某 个 请 求 中 , 如 图 3-9 


和 图 3-10 所 示 。 
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从 图 3-9 和 图 3-10 分 析 得 知 ， 请 求 方式 是 GET，Query String Parameters 是 记录 
该 请 求 的 参数 。 因 为 请 求 方式 是 GET， 所 以 请 求 参 数 也 可 以 在 请 求 链接 上 找到 。 

再 看 请 求 参数 ， 大 部 分 请 求 参数 是 可 以 明确 知道 的 ， 唯 独 参 数 singermid 无 法 确 
定 。 从 参数 的 命名 来 看 , 这 应 该 是 歌手 的 ID 信息 , 也 是 网 站 用 于 标记 歌手 唯一 的 属性 ， 
所 以 要 获取 歌手 的 singermid 可 能 需要 从 其 他 请 求 上 获取 。 

根据 上 述 例子 ， 可 简单 总 结 出 分 析 网 站 的 步骤 如 下 : 





ED 找 出 数据 来 源 ， 大 部 分 数据 来 源 于 Doc, XHR 和 JS 标签 。 

CELL? 找到 数据 所 在 的 请 求 ， 分 析 其 请 求 链接 、 请 求 方式 和 请 求 参数 。 

ED 查找 并 确定 请 求 参数 来 源 。 有 时 候 某 些 请 求 参 数 是 通过 另外 的 请 求生 成 的 ， 比 如 
请 求 A 的 参数 id 是 通过 请 求 B 所 生成 的 ， 那 么 要 获取 请 求 A 的 数据 ， 就 要 先 获 
取 请 求 B 的 数据 作为 A 的 请 求 参数 。 


3.5 本 章 小 结 


Chrome 开发 者 工具 的 主要 作用 是 进行 Web 开发 调试 ， 对 于 疏 虫 开发 人 员 来 说 ， 
应 该 熟练 掌握 Elements, Console 和 Network。 其 中 Network 是 核心 部 分 ， 百 分 之 九 十 
的 网 站 分 析 都 在 Network 上 完成 ， 读 者 对 Network 上 的 各 个 功能 和 作用 要 理解 掌握 ， 
并 懂得 如 何 使 用 Chrome 分 析 网 站 的 请 求 信 息 。 

一 般 分 析 网 站 最 主要 的 是 找到 数据 的 来 源 ， 确 定数 据 来 源 就 能 确定 数据 生成 的 具 
体 方法 。 总 结 归纳 分 析 网 站 的 步骤 如 下 : 





(1) 找 出 数据 来 源 ， 大 部 分 数据 来 源 于 Doc. XHR 和 JS 标签 。 

(2) 找到 数据 所 在 的 请 求 ， 分 析 其 请 求 链接 、 请 求 方式 和 请 求 参数 。 

(3) 查找 并 确定 请 求 参 数 来 源 。 有 时 候 某 些 请 求 参数 是 通过 另外 的 请 求生 成 的 ， 
比如 请 求 A 的 参数 id 是 通过 请 求 B 所 生成 的 ， 那 么 要 获取 请 求 A 的 数据 ， 就 要 先 获 
取 请 求 B 的 数据 作为 A 的 请 求 参数 。 


上 述 分 析 步 又 适用 于 大 部 分 网 站 分 析 ， 但 每 个 网 站 都 有 自身 设计 的 特点 ， 不 能 一 
概 而 论 。 此 方法 更 多 的 是 起 到 指导 性 作用 ， 遇 到 具体 的 问题 还 是 要 具体 分 析 。 
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4.1 Fiddler 介绍 





Fiddler 是 一 款 非 常 流行 并 且 实用 的 HTTP 抓 包 工具 ， 原 理 是 在 电脑 上 开启 一 个 
HTTP 代理 服务 器 ， 然 后 转发 所 有 的 HTTP 请 求 和 响应 。 因 此 ， 比 一 般 的 浏览 器 自 带 
的 抓 包 工具 (开发 者 工具 ) 要 好 用 得 多 。 不 仅 如 此 , 还 可 以 支持 请 求 重 放 一 些 高 级 功能 ， 
也 可 以 支持 对 手机 应 用 进行 HITP 抓 包 。 

Fiddler 是 用 C# 开发 的 工具 ， 包 含 一 个 简单 却 功能 强大 的 基于 JScript NET 事件 
的 脚本 子 系统 ， 灵 活性 非常 棒 ， 可 以 支持 众多 的 HITP 调试 任务 ， 并 且 能 够 使 用 net 
框架 语言 进行 扩展 。 

此 外 ， 还 支持 断 点 调试 技术 ， 当 请 求 或 响应 属性 能 够 跟 目 标的 标准 相 匹配 时 ， 
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Fiddler 就 能 够 暂停 HTTP 通信 ， 并 且 人 允许 修改 请 求 和 响应 。 这 种 功能 对 于 
常 有 用 ， 当 然 也 可 以 用 来 做 一 般 的 功能 测试 。 




















4.2 Fiddler 安装 配置 





安全 测试 非 





Fiddler 在 Windows 下 可 直接 使 用 exe 安装 包 安 装 ， 安 装 包 可 在 官方 网 站 下 载 


Chttps://www.telerik.com/download/fiddler) 。 


完成 安装 后 ， 在 安装 目录 下 双击 打开 应 用 程序 “Fiddlerexe”， 可 看 到 Fiddler 用 


户 界面 ， 如 图 4-1 所 示 。 


Fle Edit Rules Tools View Hep 













































































| Winconfig C) *& Replay X* P Go | streem HË Decode | Keep: Al sessions ~ D Any Process H ind Elseve iÈ O Æ Browse + Qe Clear Cache ;T TextWizard. 
* Tod URL Coen pe Remi Ceci Bo m ipe enn ima a mene 
2€ m» Statstcs TA inspectors di ^wesporde | Ef composer Fide: Orchesta Beia 
zo mp Senders | Tewem | Systaviem | WebForme | Herven Auth | Codes | Raw — ON | 94. | 
zo me 2 
0; TE LA] [enr /ider/cort gureriedier/ Tasks/Installriddler rm/L1 
zo me 197 
Cent ^| 

EOm || e nennt rn 
A omm M Accept-Encoding: ozp, 
20 me 2,9 AcceptLanguage ne Nie-0.e 
ue am s User-Agent: Mozila/5.0 (Windows NT 6.3; Win64; x64) Apple Webiqt/537.36 (KHTML, ike Gecko) Chrome/52.0. 3202.94 Safari/537.35. 
zo me Cookies. 
m2 me s ||| E coin 
m moon te gm uas 
zo me Tdc om UA-111455-21=1 4 
zo om | 93-CAL2 395532752 1513299211 i3 
me me 
zo om 
mo me à 
zo m a 
zo me 
m2 me s 
22 3 
zo mp n Date: Fri, 15Dec 201702: 10:90 GMT 
"m Ta ary: AcceptEncodng 
m ome xe 
S2 dme s Content-Length: 5097 l 
a "ne Content-Type: text/tni 

"m ETag: "ddadiaed59c3cftO” 











> Lost Hodfed: Fri, 29 Aug 201407 22:01 GMT 
Hiscelancous 








1/784 http:/jdocs.telerk. com/fdder Confgure-Fdder[Tascsirstali der 


图 4-1 Fiddler 用 户 界面 











Fiddler 用 户 界 面 主要 包括 下 面 6 个 部 分 : 





(1) 图 中 标注 1 为 Main Menu〈 主 菜单 ) ， 作 用 于 整个 Fiddler 相关 配置 。 


(2) 图 中 标注 2 为 Toolbar (工具 栏 ) ， 主 要 对 Web Session 操作 处 理 。 





(3) 图 中 标注 3 为 Web Session〈 列 表 ) ， 显 示 已 抓 取 的 HTTP 请 求 信息 。 
(4) 图 中 标注 4 为 View〔 选 项 视图 ) ， 显 示 每 条 HTTP 的 详细 信息 。 
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(5) 图 
HTTP 请 求 。 





中 标注 5 为 Quickexec《〈 命 令 行 ) ， 通 过 特定 的 条 件 快速 找到 符合 条 件 的 





(6) 图 中 标注 6 为 Status bar《〈 状 态 栏 ) ， 显 示 当 前 状态 信息 。 


























打开 Fiddler 之 后 ， 由 于 HTTPS 协议 的 特殊 性 ， 还 需要 配置 Fiddler。 了 解 Fiddler 
抓 取 HTTPS 协议 的 原理 才能 更 好 地 理解 如 何 对 Fiddler 进行 配置 ， 原 理 如 图 4-2 所 示 。 





Client Server 


1. 截获 HTTPS 请 求 


2. 服务 器 响应 


























8. 正常 加 密 通 信 





图 4-2 Fiddler 抓 取 HTTPS 的 原理 
Fiddler 抓 取 HTTPS 协议 充当 角色 : 
COD 服务 器 一 客户 端 : Fiddler 接收 到 服务 器 发 送 的 密 文 ， 用 对 称 密 钥 解 开 ， 获 
得 服务 器 发 送 的 明文 。 再 次 加 密 ， 发 送 给 客户 端 。 


(OD 客户 端 一 服务 器 端 : 客户 端 用 对 称 密 钥 加 密 ， 被 Fiddler 截获 后 ， 解 密 获得 
明文 。 再 次 加 密 ， 发 送 给 服务 器 端 。 由 于 Fidder 一 直 拥 有 通信 用 对 称 密 钥 enc. key 
因此 在 整个 HTTPS 通信 过 程 中 信息 对 其 透明 。 








配置 Fiddler， 使 其 能 够 抓 取 HTTPS 请 求 信息 ， 方 法 如 下 : 
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€D) 对 Fiddler 进行 设置 : 打开 Main Menu — Tools — Fiddler Options 一 HTTPS. 


E AR HTTPS 里 的 选项 , 然后 单 击 Actions — Trust Root Certificate, 完成 证 书 验 证 ， 
如 图 4-3 所 示 。 


| Raw | JSON | XML 

















General | HTTPS | Connections | Gateway | Appearance | Scripting | Extensions | Performance | Tools 
Fiddler can decrypt HTTPS sessions by re signing traffic using self-generated certificates. 
























































[V] Capture HTTPS CONNECTs ['ByActions. 
Decrypt HTTPS traffic oot Cert 
.. from all processes " Certificates generated by CertEnroll| Export Root Certificate to Desktop 
Ignore server certificate errors (unsafe) Open Windows Certificate Manager 
[V] Check for certificate revocation Learn More about HTTPS Decryption 











Remove Interception Certificates 
Reset All Certificates 


Protocols: «dient»; ssl3;tls 1.0 


Skip decryptionforthefollowing hosts: 





WebView | Auth | Caching 

















Help Note: Changes may not take effect until Fiddler is restarted. OK Cancel 

















图 4-3 Fiddler 配 置 HTTPS 


CX 完成 配置 ， 重 启 浏览 器 ，Fiddler 就 能 正常 抓 取 HTTPS 请 求 信息 。 








完成 上 述 安装 和 配置 ，Fiddler 就 能 抓 取 浏览 器 的 请 求 信息 。 除 此 之 外 ，Fiddler 
还 能 抓 取 手机 上 的 请 求 信 息 ， 具 体 使 用 方法 在 后 续 章节 会 详细 讲述 。 


4.3 Fiddler 抓 取 手 机 应 用 


Fiddler 可 通过 同一 无 线 网 络 实现 对 手机 应 用 的 抓 包 ， 手 机 抓 包 原理 和 电脑 抓 包 原 
理 相 同 ， 手 机 抓 包 主要 通过 远程 连接 实现 手机 和 Fiddler 通信 。 


实现 Fiddler 抓 取 手机 应 用 的 步骤 如 下 : 





O1 配置 Fiddler 远 程 连接 模式 。 打 开 Main Menu > Tools 一 Fiddler Options 一 
Connections, 4J3€ Allow remote computers to connect 复 选 框 ， 如 图 4-4 所 示 。 
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General | HTTPS | Connections | Gateway | Appearance | scripting | Extensions | Performance | Tools 





























































































































Fiddler can debug traffic from any application that accepts a HTTP Proxy. All WinINET traffic is routed 
through Fiddler when "File » Capture Traffic" is checked. 
Learn more... 
Fiddlerlistenson port: [8888 [V] Act as system proxy on startup 
Copy Browser Proxy Configuration URL [V] Monitor all connections Use PAC Script. 
Capture FTP requests [V] DefaultLAN 
[v] Allow remote computers to connect 
[V] Reuse dient connections 
[v] Reuse server connections Bypass Fiddler for URLs that start with: 
«Joopback»; ^ 
v 
Help Note: Changes may not take effect until Fiddleris restarted. OK Cancel 
图 4-4 Fiddler 配置 远程 连接 








CX 在 手机 端 进行 参数 配置 (以 安 卓 手机 为 例 ) 。 确 保 手机 和 电脑 在 同一 个 网 络 ， 查 
询 电脑 IP 地 址 ， 可 在 CMD 下 输入 ipconfig 查询 〈 电 脑 IP 为 10.168.1.240) ， 从 
4-4 得 知 Fiddler 端口 为 8888 (一 般 默认 为 8888， 也 可 自行 设置 ) 。 

E 在 手机 浏览 器 中 输入 电脑 IP 地 址 和 Fiddler 端口 (输入 “10.168.1.240: 8888”) ， 

击 确认 后 跳 转 到 证 书 下 载 页 面 。 点 击 下 载 FiddlerRoot certificate, 如 图 4-5 所 示 。 




















x 











| @ Fiddler Echo Service Q 


Fiddler Echo Service 


GET / HTT 


User-Agent: Mozilla/s.0 (Linux; U; Android 5.0.2; zh-cn; Redmi Note 2 Build/LRX226) Apple| 
x-miorigin: 

Accept: text/htal -agplication/xhtalexal app] ication/xal;q*0.9, image/webp, */*;qu0.8 

Accept-Encoding: gzip, deflate 

Accept-Language: zh-CN,en-US;q»0.8 


This page retumed a HTTP/200 response. 


* To configure Fiddler as a reverse proxy instead of seeing this page, see Reverse Proxy Setup| 
* You can download the FiddlerRoot certificate. 











图 4-5 下 载 FiddlerRoot certificate 
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EED 证 书 文件 以 cer 为 后 级 名 ， 由 于 不 同 的 手机 型 号 安装 证 书 的 方式 不 一 致 ， 因 此 
这 里 不 做 详细 讲述 。 完 成 证 书 安装 后 ， 进 入 手机 当前 连接 Wi-Fi 详情 ， 设 置 代 理 
IP: 主机 名 为 电脑 IP 地 址 ， 端 口 为 Fiddler 配置 的 端口 ， 如 图 4-6 所 示 。 
























































[xu  rFspoucPsomaers EH 


Eri: WEHIWERZ n 


1e80::2282:c0ff-fe78:e3e1 


10.168.1.225 
子 网 掩 码 255.255.255.0 
路 由 器 10.168.1.1 
代理 
手动 


主机 名 10.168.1.240 








n 8888 





4-6 配置 手机 代理 


CX 完成 上 述 配置 ， 可 操作 手机 应 用 ， 在 操作 过 程 中 产生 的 HTTP 请 求 都 会 被 电脑 上 
的 Fiddler 抓 取 ， 如 图 4-7 所 示 。 











Client ^ 
Accept: *j* 
Accept Encoding: gzip 
User-Agent: Mozila/S.0 (Linux; U; Android 5.0.2; zh-cn; Redmi Note 2 Buld/ RX22G) AppleWebit/533. 1 (KHTML, like C. 
texthtmi; charset- Entity 
v. texthtni; charset(|  ContentLength: 272 
^. text/html; charset=L] Content-Type: appkcation/x-ww-form-urlencoded 
 appication/son; char Q-GUID: 8065A99980A CE 2EAS9SACSFEC9C741360AAD ICEE2FAO 1A95B8F6 10683743007. 
».. text/html; charset=L] QQ-S-ZIP: gap 
».. text/html; charset=t] QUA2: QV =38PL =ADRAPR =WX8PP «com.tencent.mm&PPVN =6. 5. 238TBSVC =43602&CO -BK&COVC =0436328PB =GI 
text/html; dharset=(| Transport 
Connection: Cose. 
pee EPERE = 党 


Cookes | Raw | ION | œ | 





d Ded osbeoroslore6e Sokeremepiese"to9y Yee B eTe 
Sposas/» vBtevv vaaFoe efrQUeste eee Xoe -\F e KH AH ivabejr os 


CIL. Pra pres CrisEnter to oioht lj [Viewin motesad ] 


图 4-7 Fiddler 抓 取 手 机 HTTP 请 求 信息 
































从 图 4-7 中 看 到 ,User-Agent 请 求 头 是 由 安 卓 系统 发 出 的 。 同 样 地 , 若 抓 取 iOS 系统 ， 
也 是 按照 上 述 方式 配置 即 可 。 
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如 果 停 止 电脑 对 手机 的 网 络 监 控 ， 可 以 回 到 步骤 4， 将 Wi-Fi 的 代理 设置 去 掉 即 





可 。 若 要 删除 Fiddler 证 书 ， 可 在 设置 一 系统 安全 一 
TRUST” 证 书 ， 将 其 删除 即 可 。 

















4.4 Toolbar 工具 栏 


信任 的 凭据 下 找到 “DO_NOT 























现在 能 使 用 Fiddler HUR HTTP 请 求 信息 ， 但 如 何 使 用 Fiddler 对 请 求 进行 分 析 ， 








从 而 获取 我 们 所 需 的 信息 呢 ? 要 熟练 掌握 Fiddler， 首 先 要 掌握 其 每 个 功能 的 作 





从 4.2 节 知 道 ，Fiddler 用 户 界 面 由 6 部 分 组 成 ， 




















最 为 常用 的 是 Toolbar 工具 栏 、 








Web Session 列表 、View 选项 视图 和 Quickexec 命令 行 。 
Toolbar 工具 栏 主要 提供 常见 的 命令 和 设置 的 快捷 方式 ， 其 各 个 按钮 的 功能 说 明 











如 表 4-1 所 示 。 


表 4-1 Toolbar 工 具 栏 功能 说 明 


快捷 键 含 


义 





e 单 击 该 按钮 可 以 为 所 有 选 定 的 Session 添 加 comment 





#7 Replay 向 服务 器 重新 发 送 该 请 求 








|$ Stream 开 Stream 横 式 ， 取 消 所 有 没有 设置 


从 Web Session 中 删除 已 经 捕捉 的 Session 
恢复 执行 在 request 或 response 断 点 处 暂停 的 所 有 Session 





h 断 的 缓存 


iili Decode 打开 Decode 模 式 ， 对 请 求 和 响应 的 HTTP 内 容 和 传输 编码 进行 解码 





Keep: All sessions ~ 选择 Web Session 列 表 中 保存 Session 的 数量 











B Any Process 单 击 上 面 的 Any Process 图 标 并 将 其 移动 到 指定 浏览 器 页 面 后 ， 该 log 会 单 
@ pick target.. 独 记录 这 个 页 面 的 通信 情况 
































AÀ Find 打开 Find Session 窗 口 ， 可 快速 查找 某 条 Session 











E Save 把 所 有 的 Session 保 存 到 saz 文 件 中 











i& i2.) 把 当前 桌面 的 屏幕 截图 以 JPEG 格 式 添 











加 到 Web Session 列 表 














© 简单 的 计时 功能 
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含 义 





@ Browse ~ 








如 果 选 中 某 个 Session， 就 会 在 IEd F 该 URL; 如 果 没 有 选中 Session， 
就 在 正中 打开 about:blank 














Q Clear Cache 


清空 WinINET 的 缓存 文件 





AT TextWizard 


打开 文本 编码 /解码 小 工具 





E Tearoff 


新 建 一 个 包含 所 有 View 的 窗口 





MSDN Search... 


在 MSDN 的 Web Session 区 域 进行 搜索 





© 





打开 Fiddler 的 帮助 窗口 








x 








删除 工具 栏 ， 如 果 要 恢复 工具 栏 ， 可 单 击 View 一 Show Toolbar 





4.5 Web Session 列表 





Web Session 主要 以 表格 形式 展现 ， 需 掌握 表 字段 代表 的 含义 、 表 格 信息 的 含义 
以 及 快捷 键 的 使 用 。 
表 字段 ( 表 头 ) 信息 的 含义 如 表 4-2 所 示 。 


表 X 


表 4-2 Web Session 表 头 信息 及 说 明 
含义 与 作用 


# 对 已 捕捉 的 Session 生 成 对 应 的 ID 号 


Host 


接受 请 求 的 主机 名 和 端口 





URL 


请 求 URL 的 路 径 





Content-Type 


Session 的 内 容 类 型 





Result 


响应 的 状态 码 





Protocol 


网 络 协议 类 型 (HTTP. HTTPS, FTP) 





Body 


包含 的 字 节 数 





Caching 





响应 头 中 Expires 和 Cache-Control 的 值 





了 Process 


数据 流 在 本 地 系统 的 进程 





Comments 





通过 工具 栏 Comment 按 钮 设置 注释 信息 





Custom 








FiddlerScript 所 设置 的 Ui-CustomColumn 标 志 位 的 值 











观察 列表 每 条 请 求 信息 可 发 现 ， 每 条 数据 都 有 不 同 的 颜色 ， 其 颜色 含义 如 表 4-3 


所 示 。 
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表 4-3 Web Session 请 求 信 息 的 颜色 含义 





表示 HTTP 状 态 错 误 

















表示 HTTP 状 态 需 用 户 认 证 














表示 数据 流 类 型 CONNECT 或 表示 响应 内 容 是 图 像 








表示 响应 内 容 是 CSS 文 件 





表示 响应 内 容 是 HTML 











表示 响应 内 容 是 Script 文件 


除了 颜色 之 外 ， 每 条 请 求 信息 都 带 有 一 个 图 标 ， 图 标 含义 如 表 4-4 所 示 。 


mp 


表 4-4 Web Session 请 求 信息 的 图 标 含义 





[LAS db RACK 
正在 向 服务 器 获取 响应 

















名 BIB 


请 求 停止 于 断 点 处 ， 允 许 对 它 进行 修改 
响应 停止 于 断 点 处 ， 允 许 对 它 进行 修改 
目的 是 Head 或 Options 方 法 ， 客 户 端 无 须 下 载 内 容 即 可 获取 目标 URL 和 服务 




















请 求 使 用 POST 方法 向 服务 器 发 送 数据 


E [gg 


响应 内 容 是 图 像 文件 


容 是 脚本 文件 








内 
内 容 是 CSS 文 件 








容 是 XML 格式 文件 





容 是 JSON 格 式 文件 











内 
内 容 是 视频 文件 





响应 内 容 是 SilverLight 程 序 








内 
内 容 是 音频 文件 
内 
内 


响应 内 容 是 Flash 应 用 程序 








内 容 是 字体 文件 





应 成 功 





Content-Type 内 容 是 Text/HTML 











响应 是 HTTP/300、301、302、303、307 重 定向 





要 求 对 客户 端 进行 认证 





& 
B 
a 
d 
Ed 
L 
Yv 
B 
国 
4» 
回 
A 


38 








服务 器 返回 错误 的 标识 
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( 续 表 ) 
Session 被 客户 端 或 服务 器 中 止 
响应 内 容 使 用 缓存 版 本 
通过 对 表 字段 、 请 求 信息 的 颜色 和 TETES 
请 求 信息 的 图 标的 了 解 ， 可 知道 Fiddler E 
对 每 一 种 请 求 类 型 都 进行 了 详细 的 划分 。 E 4 
除 此 之 外 ， 用 户 还 可 以 对 每 个 请 求 进行 ue n 
操作 ， 移 动 鼠标 对 某 一 条 请 求 右 击 会 出 e : 
现 操作 菜单 ， 如 图 4-8 所 示 。 cp 
户 可 通过 操作 菜单 对 请 求 信息 进 
行 更 改 ， 也 可 以 直接 使 用 快捷 键 实现 ， en 
快捷 键 表 4-5 所 示 。 (图 中 颜色 较 深 的 是 nie 
常用 部 分 。) 图 4-8 Web Session 操作 菜单 





快捷 键 

















表 4-5 Web Session 快 捷 键 
含 





SpaceBar 


在 视图 中 激活 并 显示 当前 的 Session 
选中 所 有 的 Session 
取消 选择 所 有 的 Session 





Delete 


反 向 选中 ， 取 消 选 中 的 Session， 选 中 之 前 未 选中 的 Session 
删除 所 有 Session 


删除 选中 的 Session 





Shift + Delete 


删除 所 有 未 选中 的 Session 





R 
Shift - R 


重新 执行 当前 请 求 
多 次 执行 当前 的 请 求 在 提示 框 输入 执行 次 数 ) 








U 


无 条 件 重新 执行 当前 的 请 求 





Shift +U 


无 条 件 多 次 执行 当前 的 请 求 〈 在 提示 框 输入 执行 次 数 ? 





选中 触发 该 请 求 的 父 请 求 





选中 该 响应 触发 的 所 有 子 请 求 





选中 与 当前 Session 重 复 的 请 求 





Alt + Enter 


查看 当前 Session 的 属性 





Shift + Enter 


在 新 的 Fiddler 窗 口中 启动 该 Session 的 Inspectors 





Ctrl + 1/2/3/4/5/6 


选中 的 Session 分 别 用 粗 体 的 红色 / 蓝 色 / 金 色 / 绿 色 / 橙 色 / 紫 色 表 示 








M 





为 选中 的 Session 添 加 描述 
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4.6 View 选项 视图 
View 主要 以 选项 视图 方式 实现 ， 将 一 个 请 求 信息 按 功能 划分 在 不 同 选项 卡 中 。 
如 表 4-6 所 示 是 常用 的 选项 视图 。 
表 4-6 View 常 用 选项 视图 


常用 选项 视图 含 义 
Statistics 统计 选项 卡 ， 统 计 资源 的 消耗 时 间 和 数据 长 度 等 信息 
检查 选项 卡 ， 共 分 为 两 部 分 ， 请 求 信息 和 响应 信息 








自动 响应 选项 卡 ， 将 请 求 重 定向 到 本 地 文件 ， 实 现 人 工 干预 HTTP 请 求 
构建 选项 卡 ， 用 于 创建 HTTP Request， 并 发 送 服务 器 实现 模拟 请 求 


使 用 Fiddler fi JE h F R 4D» 2j 3 H Inspectors、AutoResponder 和 Composer. 
Inspectors 主要 是 对 请 求 和 响应 信息 进行 分 析 和 获取 请 求 参 数 ， 如 图 4-9 所 示 。 









































Statistics | ^A [raras | Si mesat E on | sam | tn 
Headers | TEN | SyiaxWiew | Webrome | HexHew | Auth | Cookies | Raw | JSON | xm 
Request Headers 
GET /?tn-22073068 5 cem dg HTTP/1. 1 





Cache-Control: max-age =0 


Accept: text/html, application/xhtml ^mi, application/xml;q «0.9 jmage webp image /apng, "/";q=0.8 

Accept-Encoding: gzip, deflate, br 

Accept-Language: zh-CN,zh;q=0.9 

User-Agent: Mozila/5.0 (Windows NT 6.3; Win64; x64) AppleWebkit/537.36 (KHTML, ike Gecko) Chrome/63.0.3239. 132 Safari/537.36 
Cookies 


BD HOME-1 


Transformer ||Headers | Textyiew | SyntaxView | ImageView | HexView | WebView | Auth | Caching | Cookes | Raw | JSON | XM. 
Response Headers 
|HTTP/1.1 200 OK 
Cache 
Cache-Control: private 


Date: Wed, 07 Feb 2018 08:49:17 GMT 
Expires: Wed, 07 Feb 2018 08:49:17 GMT 





Set-Cookie: H.PS PSSID-; ra domain -.baidu.com. 


Content-Length: 207108 
Content-Type: text/html;charset-utf-8 
Miscellaneous 


























图 4-9 Inspectors 选项 视图 
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Px 
R) 








4-9 ^ii, Inspectors 上 下 划分 为 两 个 功能 区 。 上 面 的 功能 区 显示 用 户 发 送 的 
请 求 信息 ， 下 面 的 功能 区 显示 服务 器 响应 的 内 容 ， 每 个 功能 区 里 又 划分 了 多 个 选项 视 
图 。 其 中 ，Headers 选项 视图 显示 请 求 头 和 响应 头 ，WebForm 选项 视图 显示 发 送 请 求 
请求 参 数 ，xxxView 选项 卡 显 示 各 种 类 型 的 数据 内 容 。 

AutoResponder 和 Composer 就 不 多 做 讲解 了 ， 主 要 因为 AutoResponder 作用 更 偏 
向 于 Web 开发 调试 ， 在 爬虫 开发 中 实用 性 不 强 ; Composer 虽然 能 够 实现 对 服务 器 的 
请 求 ， 但 在 Fiddler 编写 代码 就 显得 本 末 倒 置 ， 还 不 如 直接 使 用 Python 实现 。 























an 





















































> 












































4.7 Quickexec 命令 行 





Quickexec 命令 行 通过 特定 的 条 件 快速 找到 符合 条 件 的 请 求 信息 ， 如 图 4-10 所 示 。 








. [hm.gif?cc-0&ck... image/gif 

. edick.baidu.com... 

. [fp.htm?br-28f... text/html 

. |w.gif;pid-307&... image/gif 

. |w.gifz-http963... image/gif 

. [hm.gif?cc-0&ck... image/gif 
.. dientsi.google.c... text/html; charset-UTF-8 
.. dients1.aoodle.c... 
































qu 


Wf Capturing = AllProcesses 44/447 Found 44instances of gif 





图 4-10 Quickexec 快速 查找 














从 图 4-10 中 看 到 ， 当 输入 “?gif” 时 ，Web Session 列表 会 将 符合 条 件 的 请 求 信 
息 以 高 亮 显示 ， 在 下 方 状态 栏 可 以 看 到 符合 条 件 的 请 求 有 44 条 。 

除了 使 用 Quickexec 实现 快速 查找 之 外 ， 使 用 者 还 可 以 使 用 “Ctrl+F” 查 找 功 能 ， 
如 图 4-11 所 示 。 

通过 输入 关键 字 ， 然 后 单 击 查找 按钮 ， 就 能 找到 相对 应 的 Session 信息 ， 而 且 还 
可 以 自行 设 定 目标 高 亮 颜 色 。 除 此 之 外 ， 使 用 者 还 能 根据 特定 的 要 求 设置 不 同 的 查找 
条 件 。 
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中 Host URL Content-Type. 

目 

会 2 Tum... dientsl.google.c... -J Fna: 

43 Tum... dientsi.googie.c. - Options 

K»*4 www... |queryqueryGd... text/html; charset=UTF-8 y 

[s acc MaA peeraa | Search: Requests and responses 

$6 www... /query!queryGd... text/html; charset=UTF-8 200 Examine: Headers and bodies 

Ë? Tum... dientsl.google.c : Match case Regular Expression. 

ps www... [querylqueryGd... text/html; charset=UTF-8 x 

Eo — www. /vaimg.action image/peg Search binaries 

| 会 10 Tum... dientsl.googke.c... à Decode compressed content 

"m www... valmg.action —— imagefpeg oo Search onlyselected sessions 

12 www. „ico 

会 13 Tum... dientsl.googke.c... —— Chior np sua 

Result Highlight: [Yellow Y 
Find Sessions Cancel 


























4-11 Ctrl+F 查找 功能 


4.8 本 章 小 结 


Fiddler 是 一 款 非常 流行 并 且 实 用 的 HTTP 抓 包 工具 ， 它 的 原理 是 在 电脑 中 开启 一 
个 HTTP 代理 服务 器 ， 然 后 转发 所 有 的 HTTP 请 求 和 响应 。 因 此 ， 比 一 般 的 浏览 器 自 
带 的 抓 包 工具 〈 开 发 者 工具 ) 要 好 用 得 多 。 不 仅 如 此 ，Fiddler 还 可 以 支持 请 求 重 放 等 
一 些 高 级 功能 ， 也 可 以 支持 对 手机 应 用 进行 HTTP 抓 包 。 

Fiddler 提供 了 Windows 环境 下 的 .exe 安装 包 ， 使 其 安装 极其 简单 方便 。 安 装 完 
成 后 ， 需 配置 HTTPS 抓 取 功 能 和 手机 抓 包 功能 ， 完 成 配置 便 可 对 HTTPS 网 站 和 手机 
进行 抓 包 。 

除了 功能 强大 之 外 ， 在 使 用 上 也 较为 简单 ， 使 用 者 只 要 打开 Fiddler， 然 后 在 浏览 
器 〈 手 机 ) 中 进行 操作 ，Fiddler 就 会 自动 抓 取 请 求 信 息 。 就 Fiddler 本 身 的 功能 而 言 ， 
使 用 者 只 需 熟 知 每 个 功能 按钮 的 作用 便 知 道 如 何 使 用 。 

对 于 怜 虫 开发 人 员 来 说 ， 需 要 掌握 Web Session 列表 和 View 常用 选项 视图 的 基 
本 功能 ， 能 够 分 析 并 得 知 每 个 请 求 的 类 型 、 状 态 码 、 请 求 方式 、 请 求 头 、 请 求 链接 、 
请 求 参数 以 及 响应 内 容 等 基本 信息 。 
































42 


Urllib 数据 抓 取 


5.1 Urllib 简介 





Urllib 是 Python 自 带 的 标准 库 ， 无 须 安 装 ， 直 接 引用 即 可 。Urllib 3i 2$ FH FIER 
开发 、API (应 用 程序 编程 接口 ) 数据 获取 和 测试 。 在 Python 2 和 Python 3 中 ，Urllib 
在 不 同 版 本 中 的 语法 有 明显 的 改变 。 

Python 2 分 为 Urllib 和 Urllib2, Urllib2 可 以 接收 一 个 Request 对 象 ， 并 以 此 来 设 
置 一 个 URL 的 Headers， 但 是 Urllib 只 接收 一 个 URL， 意 味 着 不 能 伪装 用 户 代理 字符 
串 等 。Urllib 模块 可 以 提供 进行 Urlencode 的 方法 , 该 方法 用 于 GET 查询 字符 串 的 生成 ， 
Urllib2 不 具有 这 样 的 功能 。 这 也 是 Urllib 与 Urllib2 经 常 在 一 起 使 用 的 原因 。 

在 Python 3 中 ，Urllib 模块 是 一 堆 可 以 处 理 URL 的 组 件 集合 ， 就 是 将 Urllib 和 
Urllib2 合并 在 一 起 使 用 ， 并 且 命 名 为 Urllib。 
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由 于 Urllib 在 不 同 的 Python 版 本 上 有 明显 的 区 别 ， 在 实际 开发 中 也 遇 到 一 些 尴 
炊 的 情况 ， 其 中 最 为 主要 的 是 版 本 之 间 的 互 不 兼容 所 带 来 的 问题 。 
在 Python3 中 , Urlib 是 一 个 收集 几 个 模块 来 使 用 URL 的 软件 包 , 大 致 具备 以 下 功能 。 


urllib.request: 用 于 打开 和 读 取 URL. 
urllib.error: 包含 提出 的 例外 urllib.request。 
urllib.parse: 用 于 解析 URL. 
urllib.robotparser: 用 于 解析 robots.txt 文件 。 


5.2 发 送 请 求 


urllib.request.urlopen 的 语法 如 下 : 





urllib.request.urlopen(url, data-None, [timeout, ]*, cafile-None, 


capath-None, cadefault-False, context-None) 


功能 说 明 : Urllib 是 用 于 访问 URL (请 求 链接 ) 的 唯一 方法 。 
【参数 解释 】 
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url: 需要 访问 的 网 站 的 URL 地 址 。url 格式 必须 完整 ， 如 https://movie.douban. 
com/ 为 完整 的 url， 若 url 为 movie.douban.com/， 则 程序 运行 时 会 提示 无 法 识 
别 url 的 错误 。 

data: 默认 值 为 None，Urllib 判断 参数 data 是 否 为 None 从 而 区 分 请 求 方式 。 
若 参 数 data 为 None， 则 代表 请 求 方式 为 GET; 反之 请 求 方式 为 POST， 发 送 
POST 请求。 参数 data 以 字典 形式 存储 数据 ， 并 将 参数 data 由 字典 类 型 转换 
成 字 节 类 型 才能 完成 POST 请 求 。 

timeout; 超时 设置 ， 指 定 阻 塞 操作 〈 请 求 时 间 ) 的 超时 (如 果 未 指定 ， 就 使 
用 全 局 默认 超时 设置 ) 。 

cafile、capath 和 cadefault: 使 用 参数 指定 一 组 HTTPS 请 求 的 可 信 CA 证 书 。 
cafile 应 指向 包含 一 组 CA 证 书 的 单个 文件 ，capath 应 指向 证 书 文件 的 目录 ; 
cadefault 通常 使 用 默认 值 即 可 。 

context: 描述 各 种 SSL 选项 的 实例 。 
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在 实际 使 用 中 ， 常 用 的 参数 有 un. data 和 timeout。 若 在 怜 虫 中 遇 到 证 书 验 证 ， 
则 可 将 证 书 验证 直接 关闭 ， 也 可 以 设置 参数 指向 证 书 的 信息 和 位 置 。 相 比 而 言 ， 设 置 
证 书 比较 耗 时 ， 而 且 通 用 性 不 强 。 

当 对 网 站 发 送 请 求 时 ， 网 站 会 返回 相应 的 响应 内 容 。urlopen 对 象 提 供 获 取 网 站 
响应 内 容 的 方法 函数 ， 分 别 介绍 如 下 。 


*  read(). readline(). readlines(). fileno() 和 close0: 对 HITPResponse 类 型 数据 
操作 。 

。 info0: 返回 HTTPMessage 对 象 ， 表 示 远 程 服务 器 返回 的 头 信息 。 

e  getcode(): 返回 HTTP 状态 码 。 

e geturl0: 返回 请 求 的 URL. 


下 面 的 例子 用 于 实现 Urllib 模块 对 网 站 发 送 请求 并 将 响应 内 容 写 入 文本 文档 ， 代 
码 如 下 : 


# 导入 urllib 

import urllib.request 

# 打开 URL 

response = urllib.request.urlopen('https://movie.douban.com/', 
None, 2) 

# 读 取 返回 的 内 容 

html = response.read().decode('utf8') 

# 写 入 txt 

f = open('html.txt', 'w', encoding-'utf8') 

上 .write (html) 

f.close() 


首先 导入 urllibrequest 模块 ， 然 后 通过 urlopen 访问 一 个 URL， 请 求 方式 是 
GET， 所 以 参数 data 设置 为 None; 最 后 的 参数 用 于 设置 超时 时 间 ， 设 置 为 2 秒 ， 如 
果 超 过 2 秒 ， 网 站 还 没 返 回响 应 数据 ， 就 会 提示 请 求 失败 的 错误 信息 。 

当 得 到 服务 器 的 响应 后 ， 通 过 response.read() 获取 其 响应 内 容 。read0 方法 返回 
的 是 一 个 bytes 类 型 的 数据 ， 需 要 通过 decode) 来 转换 成 str 类 型 。 最 后 将 数据 写 入 文 
本 文档 中 ，encoding 用 于 设置 文本 文档 的 编码 格式 ， 数 据 编码 必须 与 文本 文档 编码 一 
致 ， 否 则 会 出 现 乱码 。 运 行 结果 如 图 5-1 所 示 。 
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忆 html.txt -记事 本 


文件 (F) 编辑 (E) 格式 (O) 查看 (V) 帮助 (H) 





<!DOCTYPE html> 
<head> 
<meta name=”renderer” 


<meta name=”referrer” 


</title> 





53 复杂 的 请 > 


<html lang-"zh-cmn-Hans" class=””> | 


<meta http-equiv-"Content-Type" content-"text/html; charset-utf-8^» 


content-^webkit^» 
content-"always^» 


<meta name-"baidu-site-verification' content-"cZdRAxxR7RxmM4zE" /> 
<meta http-equiv-"Pragma" content-"no-cache^» 
<meta http-equiv-'Expires" content-'Sun, 6 Mar 2005 01:00:00 GMT^» 
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5-1 获取 豆瓣 页 面 内 容 








urllib.request.Request 的 语法 如 下 : 


urllib.request.Request (url, data=None, headers={}, method=None) 


功能 说 明 : 声明 一 个 request 对 象 ， 该 对 象 可 自 定义 header. GERA) 等 请 求 信息 。 


【参数 解释 】 
e url: 完整 的 url 格式 ， 


与 urllib.request.urlopen 的 参数 url 一 致 。 


e data: 请 求 参数 ， 与 urllib.request.urlopen 的 参数 data 一 致 。 
* headers: 设置 request 请 求 头 信息 。 
* method: 设 定 请 求 方式 ， 主 要 是 POST 和 GET 方式 。 











一 个 完整 的 HTTP 请 求 必 须要 有 请 求 头 信息 。 而 urllib.request.Request 的 作用 是 














设置 HTTP 的 请 求 头 信息 。 使 有 








 urllib.request.Request 为 5.2 节 的 例子 设置 请 求 头 ， 代 





码 如 下 : 


# 导入 urllib 
import urllib.request 
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url = 'https://movie.douban.com/' 
+ 自 定义 请 求 头 
headers = ( 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko)" 
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 
'Referer': 'https://movie.douban.com/', 
'Connection': 'keep-alive'] 
# 设置 request 的 请 求 头 
req = urllib.request.Request(url, headers-headers) 
* 使 用 urlopen 打开 req 
html = urllib.request.urlopen (req) .read() . decode ('utf-8') 
# 写 入 文件 
f = open('html.txt', 'w', encoding-'utf8') 
和 .write (html) 


f.close() 


54 代理 IP 


代理 他 的 原理 :以 本 机 先 访问 代理 了， 再 通过 代理 IP 地 址 访问 互联 网 ， 这 样 网 
站 服务器) 接收 到 的 访问 IP 就 是 代理 人 P 地 址 。 

Urllib 提供 了 urllib.request.ProxyHandler0 方法 可 动态 设置 代理 他 池 ， ARE IP E 
要 以 字典 格式 写 入 方法 。 完 成 代理 人 P 设置 后 ， 将 设置 好 的 代理 I 人 P 写 入 urllib.request. 
build opener() 方法 ， 生 成 对 象 opener, 然后 通过 opener 的 open) 方法 向 网 站 (服务 器 ) 
发 送 请 求 。 

沿用 前 面 章节 的 例子 ， 将 例子 改 为 使 用 代理 人 访问 网 站 ， 代 码 如 下 : 





import urllib.request 
url = 'https://movie.douban.com/' 
# 设置 代理 IP 
proxy handler = urllib.request.ProxyHandler ({ 
‘http: '218.56.132.157:8080', 
'https': *183.30.197.29:9797*]) 
# DER build opener() 函数 来 创建 带 有 代理 IP 功能 的 opener 对 象 


47 


玩 转 Python WEE 





opener = urllib.request.build opener(proxy handler) 


response - opener.open (url) 


html = response.read().decode('utf-8') 


f = open('html.txt', 'w', encoding-'utf8') 
f.write (html) 
f.close() 


注意 ， 由 于 使 用 代理 他， 因此 连接 IP 的 时 候 有 可 能 出 现 超时 而 导致 报错 ， 遇 到 
这 种 情况 只 要 更 换 其 他 代理 IP 地 址 或 者 再 次 访问 即 可 。 以 下 是 常见 的 报错 信息 。 


ConnectionResetError: [WinError 10054] 远程 主机 强迫 关闭 了 一 个 现 有 的 连接 。 
urllib.error.URLError: urlopen error Remote end closed connection without 
response〔 结 束 没有 响应 的 远程 连接 ) 。 

urllib.error.URLError: urlopen error [WinError 10054] 远程 主机 强迫 关闭 了 一 个 
现 有 的 连接 。 

TimeoutError: [WinError 10060] 由 于 连接 方 在 一 段 时 间 后 没有 正确 答复 或 连接 
的 主机 没有 反应 ， 因 此 连接 尝试 失败 。 

urllib.errorURLError urlopen error [WinError 10061] 由 于 目标 计算 机 拒绝 访问 ， 
因此 无 法 连接 。 


5.5 使 用 Cookies 





Cookies 主要 用 于 获取 用 户 登录 信息 ， 比 如 ， 通 过 提交 数据 实现 用 户 登 录 之 后 ， 
会 生成 带 有 登录 状态 的 Cookies， 这 时 可 以 将 Cookies 保存 在 本 地 文件 中 ， 下 次 程序 
运行 的 时 候 ， 可 以 直接 读 取 Cookies 文件 来 实现 用 户 登录 。 特 别 对 于 一 些 复杂 的 登录 ， 
如 验证 码 、 手 机 短信 验证 登录 这 类 网 站 ， 使 用 Cookies 能 简单 解决 重复 登录 的 问题 。 

Urllib 提 供 HTTPCookieProcessor() 对 Cookies 操作 。 但 Cookies 的 读 写 是 由 
MozillaCookieJar() 完成 的 。 下 面 的 例子 实现 Cookies 写 入 文件 ， 代 码 如 下 : 


import urllib.request 


from http import cookiejar 


filename = 'cookie.txt' 
4 MozillaCookieJar 保存 cookie 
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cookie = cookiejar.MozillaCookieJar (filename) 

4 HTTPCookieProcessor 创建 cookie 处 理 器 

handler = urllib.request.HTTPCookieProcessor (cookie) 
+ 创建 自 定义 opener 

opener = urllib.request.build opener (handler) 

# open 方法 打开 网 页 

response = opener.open('https://movie.douban.com/') 
# 保存 cookie 文件 


cookie.save() 


代码 中 的 cookiejar 是 自动 处 理 HTTP Cookie 的 类 ，MozillaCookieJar() 用 于 将 
Cookies 内 容 写 入 文件 。 程 序 运 行 时 先 创 建 MozillaCookieJarO 对 象 ， 然 后 将 对 象 直 
接 传 入 函数 HITPCookieProcessor0， 生 成 opener 对 象 ;， 最 后 使 用 opener 对 象 访问 
URL， 访 问 过 程 所 生成 的 Cookies 就 直接 写 入 已 创建 的 文本 文档 中 。 


接着 再 看 如 何 读 取 Cookies， 代 码 如 下 : 


import urllib.request 

from http import cookiejar 

filename = 'cookie.txt"' 

# 创建 MozillaCookieJar 对 象 

cookie = cookiejar.MozillaCookieJar() 

+ 读 取 cookie 内 容 到 变量 

cookie.load (filename) 

4 HTTPCookieProcessor 创建 cookie 处 理 器 

handler = urllib.request.HTTPCookieProcessor (cookie) 
4 创建 opener 

opener = urllib.request.build opener (handler) 

# opener 打开 网 页 

response = opener.open('https://movie.douban.com/') 
# 输出 结果 


print (cookie) 


读 取 和 写 入 的 方法 很 相似 ， 主 要 区 别 在 于 : 两 者 对 MozillaCookieJar() 对 象 的 操 
作 不 同 ， 导 致 实现 功能 也 不 同 。 运 行 结果 如 图 5-2 所 示 。 
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Il] cockie.txt -记事 本 
文 作 (F) ED 格式 (O) FEV 帮助 (H) 


Netscape HTTP Cookie File 
http://curl. haxx. se/rfc/cookie spec. html 
This is a generated file! Do not edit. 





douban. com TRUE / FALSE 1536243725 bid cdOc4PE xjE 
douban. com TRUE / FALSE 1536243725 "118286" 





€MozillaCookieJar[«Cookie bid-cdOc4PE xjE for .douban. com/>, «Cookie 11-^118286" for . douban. com/>]> 











5-2 验证 Cookies 


注意 ， 为 了 方便 测试 ， 上 述 代码 中 使 用 的 cookie.save() 和 cookie.load(filename) 将 
Cookies 内 容 显 示 在 文本 文档 中 。 在 实际 开发 中 ， 为 了 提高 安全 性 ， 可 以 在 保存 和 读 
取 Cookies 时 设置 参数 ， 使 Cookies 信息 隐藏 在 文件 中 。 方 法 如 下 : 





cookie.save (ignore discard-True,ignore expires-True) 
cookie.load(filename, ignore discard-True, ignore expires-True) 


5.6 证 书 验证 


当 遇 到 一 些 特殊 的 网 站 时 ， 在 浏览 器 上 会 显示 连接 不 是 私密 连接 而 导致 无 法 浏览 
该 网 页 。 若 在 没有 安装 12306 根 证 书 的 情况 下 访问 12306 网 站 ， 则 页 面 如 图 5-3 所 示 。 


A 


您 的 连接 不 是 私密 连接 
攻击 者 可 能 会 试图 从 kyfw.12306.cn 窃取 您 的 信息 ( 例如 : 密码 、 通 讯 内 容 或 信用 卡 信 


B). 了解 详情 
NET:ERR CERT AUTHORITY INVALID 

















自动 向 Google 发 送 _ 些 系统 信息 和 网 页 内 容 , 以 帮助 检测 危险 应 用 和 网 站 。 隐 私 权 政 策 

















图 5-3 查询 12306 的 车 票 














这 里 补充 一 个 知识 点 , CA 证书 也 叫 SSL 证 书 , 是 数字 证 书 的 一 种 , 类 似 于 驾驶 证 、 
护照 和 营业 执照 的 电子 副本 。 因 为 配置 在 服务 器 上 ， 也 称 为 SSL 服务 器 证 书 。 
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SSL 证 书 就 是 遵守 SSL 协议 ， 由 受信 任 的 数字 证 书 机 构 颁 发 CA， 在 验证 服务 器 
身份 后 颁发 ， 具 有 服务 器 身份 验证 和 数据 传输 加 密 功 能 。 

SSL 证 书 在 客户 端 浏览 器 和 Web 服务 器 之 间 建 立 一 条 SSL 安全 通道 (Secure 
Socket Layer; SSL) ， 安 全 协议 是 由 Netscape Communication 公司 设计 开发 的 。 该 安 
全 协议 主要 用 来 提供 对 用 户 和 服务 器 的 认证 ， 对 传送 的 数据 进行 加 密 和 隐藏 ， 确 保 数 
据 在 传送 中 不 被 改变 ， 即 数据 的 完整 性 ， 现 已 成 为 该 领域 中 全 球 化 的 标准 。 

一 些 特殊 的 网 站 会 使 用 自己 的 证 书 ， 如 12306 首页 提示 下 载 安装 根 证 书 ， 这 是 
为 了 确保 网 站 的 数据 在 传输 过 程 中 的 安全 性 。 在 讲述 urllib.request.urlopen 的 时 候 ， 
urlopen 带 有 cafile、capath 和 cadefault 参数 ， 可 以 用 于 设置 用 户 的 CA 证 书 。 

遇 到 这 类 验证 证 书 的 网 站 ， 最 简单 而 暴力 的 方法 是 直接 关闭 证 书 验证 ， 可 以 在 代 
码 中 引入 SSL 模块 ， 设 置 关 闭 证 书 验证 即 可 。 代 码 如 下 : 


import urllib.request 

import ssl 

# 关闭 证 书 验证 

ssl. create default https context = ssl. create unverified context 
url = 'https://kyfw.12306.cn/otn/leftTicket/init"' 


response - urllib.request.urlopen (url) 
# 输出 状态 码 


print (response.getcode () ) 


5.7 数据 处 理 


我 们 知道 urllib.request.urlopen0 方法 是 不 区 分 请 求 方式 的 ， 识 别 请 求 方式 主要 
通过 参数 data 是 否 为 None。 如 果 向 服务 器 发 送 POST 请 求 ， 那 么 参数 data 需要 使 用 
urllib.parse 对 参数 内 容 进 行 处 理 。 

Urllib 在 请 求 访问 服务 器 的 时 候 , 如 果 发 生 数据 传递, 就 需要 对 内 容 进行 编码 处 理 ， 
将 包含 str 或 bytes 对 象 的 两 个 元 素 元 组 序列 转换 为 百分比 编码 的 ASCII 文本 字符 串 。 
如 果 字 符 串 要 用 作 POST， 那 么 它 应 该 被 编码 为 字 节 ， 和 否则 会 导致 TypeError 错误 。 
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Urllib 发 送 POST 请 求 的 方法 如 下 : 


import urllib.request 


import urllib.parse 


url = 'https://movie.douban.com/' 
data = ( 
'value': 'true', 
} 
* 数据 处 理 


data = urllib.parse.urlencode (data) .encode('utf-8') 


req = urllib.request.urlopen(url, data-data) 


代码 P urllib.parse.urlencode(data) 将 数据 转换 成 字 节 的 数据 类 型 ， 而 
encode('utf-8') 设置 字 节 的 编码 格式 。 这 里 需要 注意 的 是 ， 编 码 格式 主要 根据 网 站 的 
编码 格式 来 决定 。urlencode0 的 作用 只 是 对 请 求 参数 做 数据 格式 转换 处 理 。 


除 此 之 外 ，Urllib 还 提供 quote) 和 unquote() 对 URL 编码 处 理 ， 使 用 方法 如 下 : 


import urllib.parse 

url = '$2523$25E7$25BC$2596$25E7$25A8$258B$2523' 
# 第 一 次 解码 

first = urllib.parse.unquote (url) 

print (first) 

d 输出 : '*23$bE753BC$96*E7$A828B$23' 

# 第 二 次 解码 

second = urllib.parse.unquote (first) 

print (second) 


# 输出 : b 编程 #' 


上 述 例子 将 已 编码 处 理 的 URL 进行 解码 还 原 ， 同 样 的 方法 ， 可 使 用 quote0 对 数 
据 进行 编码 处 理 。quote0 和 unquoteQ 的 作用 是 解决 请 求 参数 中 含有 中 文 内 容 的 问题 。 


5.8 本 章 小 结 





本 章 主 要 讲解 了 Python 自 带 模块 Urllib 的 功能 和 使 用 。Urllib 385 FH] T E d JF Az 
和 API (应 用 程序 编程 接口 ) 数据 获取 和 测试 。 在 Python 2 和 Python 3 中 ，Urllib 的 
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语法 有 明显 的 改变 。 其 常用 的 语法 有 以 下 几 种 。 


urllib.request.urlopen: urllib 最 基本 的 使 用 功能 ， 用 于 访问 URL. (请 求 链接 ) 
的 唯一 方法 。 

urllib.request.Request: 声明 request 对 象 ， 该 对 象 可 自 定义 请 求 头 (header) 、 
请 求 方式 等 信息 。 

urllib.request.ProxyHandler: 动态 设置 代理 IP 池 ， 可 加 载 请 求 对 象 。 
urllib.request.HTTPCookieProcessor: 设置 Cookies 对 象 ， 可 加 载 请 求 对 象 。 
urllib.request.build openerQ: 创建 请 求 对 象 ， 用 于 代理 IP 和 Cookies 对 象 加 载 。 
urllib.parse.urlencode(data).encode('utf-8): 请 求 数据 格式 转换 。 


urllib.parse.quote(url): URL 编码 处 理 ， 主 要 对 URL 上 的 中 文 等 特殊 符号 编码 
处 理 。 


urllib.parse.unquote(url): URL 解码 处 理 ， 将 URL 上 的 特殊 符号 还 原 。 


除了 Urllib 之 外 ， 一 些 特殊 请 求 需要 结合 其 他 模块 配合 使 用 ， 如 Cookies 读 写 由 
HTTP 模块 完成 ， 关 闭 证 书 验 证 需要 SSL 模块 设置 ， 等 等 。 
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51 Requests MERE 


Requests 是 Python 的 一 个 很 实用 的 HTTP PME, 554i EUS P 28 TTE ro H5 gts 
求 。 与 Urllib X4 tk, Requests 是 在 Urllib 的 基础 上 进一步 封装 的 ， 具 备 Urllib 的 全 部 
功能 ; 在 开发 使 用 上 , 语法 简单 易 懂 , 完全 符合 Python 优雅 、 简洁 的 特性 ; 在 兼容 性 上 ， 
完全 兼容 Python 2 和 Python 3， 具 有 较 强 的 适用 性 。 

Requests 可 通过 pip 安装 ， 具 体 如 下 。 


e Windows 系统 : pip install requests. 


e Linux 系统 : sudo pip install requests. 
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除了 使 用 pip 安装 之 外 ， 还 可 以 下 载 whl 文件 安装 ， 方 法 如 下 : 


(1) 访问 www.lfd.uci.edu/~gohlke/pythonlibs， 按 CtrHtF 组 合 键 搜索 关键 字 
“requests”， 如 图 6-1 所 示 。 





-2.18.4-py2.py3-none-any.whl 
requests file-1.4.2-py2.py3-none-any.whl 
requests ftp-0.3.1-py2.py3-none-any.whl 
requests oauthlib-0.8.0-py2.py3-none-any.whl 
requests toolbelt-0.8.0-py2.py3-none-any.whl 
































图 6-1 安装 requests 





(2) 单 击 下 载 requests-2.18.4-py2.py3-none-any.whl， 把 下 载 文件 直接 解压 ， 将 解 
压 出 来 的 文件 直接 放 入 Python 的 安装 目录 Lib\site-packages 中 即 可 。 


(3) 除了 解压 whl, 还 可 以 使 用 pip 安装 whl 文件 。 例 如 把 下 载 的 文件 保存 在 E 盘 ， 
打开 CMD (终端 ， 将 路 径 切 换 到 E 盘 ， 输 入 安装 命令 : 


E:\>pip install requests-2.18.4-py2.py3-none-any.whl 











完成 Requests 安装 后 ， 在 终端 (CMDO 下 运行 Python， 查看 Requests 版 本 信息 ， 
检测 是 否 安装 成 功 。 方 法 如 下 : 

E:\>python 

>>> import requests 


>>> requests. version — 
'2.18.4' 


62 请 求 方式 


HTTP 的 常用 请 求 是 GET 和 POST, Requests 对 此 区 分 两 种 不 同 的 请 求 方式 。 
GET 请 求 有 两 种 形式 ， 分 别 是 不 带 参数 和 带 参数 ， 以 百度 为 例 : 





+ 不 带 参数 

https://www.baidu.com/ 

# 带 参数 wd 
https://www.baidu.com/s?wd-python 
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判断 URL 是 否 带 有 参数 ,可 以 对 符号 “?” 判断。 一 般 网 址 末端 (域名 ) 带 有 “?”， 
明 该 URL 是 带 有 请 求 参数 的 ， 反 之 则 不 带 有 参数 。GET 参数 说 明 如 下 : 


(OD wd 是 参数 名 ， 参 数 名 由 网 站 〈 服 务 器 ) 规定 。 
(2) python 是 参数 值 ， 可 由 用 户 自 行 设置 。 
G) 如 果 一 个 URL 有 多 个 参数 ， 参 数 之 间 用 “人 及” 连接。 


Requests 实现 GET 请 求 ， 对 于 带 参 数 的 URL 有 两 种 请 求 方式 : 


import requests 

# 第 一 种 方式 

r = requests.get('https://www.baidu.com/s?wd-python') 
# 第 二 种 方式 

url = 'https://www.baidu.com/s' 

params = ('wd': 'python'] 

# 左边 params 在 GET 请 求 中 表示 设置 参数 

r = requests.get(url, params-params) 

+ 输出 生成 的 URL 


print (r.url) 


两 种 方式 都 是 请 求 同 一 个 URL， 在 实际 开发 中 建议 使 用 第 一 种 方式 ， 因 为 代码 


简洁 ， 如 果 参 数 是 动态 变化 的 ， 那 么 可 使 用 字符 串 格式 化 对 URL 动态 设置 ， 例 如 
'https://www.baidu.com/s?wd=%s' %('python')。 


POST 请 求 是 我 们 常 说 的 提交 表单 ， 表 单 的 数据 内 容 就 是 POST 的 请 求 参数 。 


Requests 实现 POST 请 求 需 设置 请 求 参数 data， 数 据 格 式 可 以 为 字典 、 元 组 、 列 表 和 
JSON 格式 ,不同 的 数据 格式 有 不 同 的 优势 。 代 码 如 下 : 
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# 字典 类 型 

data = {'keyl': 'valuel', 'key2': 'value2'] 
# 元 组 或 列表 

(Ckeyl', 'valuel'), ('keyl', 'value2')) 

# JSON 


import json 

data = {'keyl': 'valuel', 'key2': 'value2'] 
# 将 字典 转换 ISON 

data-json.dumps (data) 
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* AE POST 请 求 
r = requests.post("https://www.baidu.com/", data-data) 


print (r.text) 


可 以 看 出 ， 左 边 的 data 是 POST 方法 的 参数 ， 右 边 的 data 是 发 送 请 求 到 网 站 
(服务器 ) 的 数据 。 值 得 注意 的 是 ，Requests 的 GET 和 POST 方法 的 请 求 参数 分 别 是 
params 和 data， 别 混淆 两 者 的 使 用 要 求 。 

当 向 网 站 《服务 器 ) 发 送 请 求 时 ， 网 站 会 返回 相应 的 响应 (response) 对象， 包 
含 服务 器 响应 的 信息 。Requests 提供 以 下 方法 获取 响应 内 容 。 


rstatus code: 响应 状态 码 。 

rraw: 原始 响应 体 ， 使 用 rrawxread() 读 取 。 

rcontent 字 节 方式 的 响应 体 ， 需 要 进行 解码 。 

rtext: 字符 串 方式 的 响应 体 ， 会 自动 根据 响应 头 部 的 字符 编码 进行 解码 。 


rheaders: 以 字典 对 象 存储 服务 器 响应 头 ， 但 是 这 个 字典 比较 特殊 ， 字 典 键 不 
区 分 大 小 写 ， 若 键 不 存在 ， 则 返回 None. 


rjsonQ: Requests 中 内 置 的 JSON 解码 器 。 
rraise for status): 请 求 失败 〈 非 200 响应 ) ， 抛 出 异常 。 
rud: 获取 请 求 链接 。 

rcookies: 获取 请 求 后 的 cookies. 

rencoding: 获取 编码 格式 。 


6.3 复杂 的 请 求 方式 





从 第 5 章 得 知 ， 复 杂 的 请 求 方式 通常 有 请 求 头 、 代 理 了 了 、 证 书 验证 和 Cookies 等 
功能 。Requests 将 这 一 系列 复杂 的 请 求 做 了 简化 ， 将 这 些 功 能 在 发 送 请 求 中 以 参数 的 
形式 传递 并 作用 到 请 求 中 。 


COD 添加 请 求 头 : 请 求 头 以 字典 的 形式 生成 ， 然 后 发 送 请 求 中 设置 的 headers 参 
数 ， 指 向 已 定义 的 请 求 头 ， 代 码 如 下 : 


sr 
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headers = { 
'content-type': 'application/json', 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; 
rv:41.0) Gecko/20100101 Firefox/41.0') 


requests.get ("https://www.baidu.com/", headers-headers) 


(2) 使 用 代理 IP: 代理 了 P 的 使 用 方法 与 请 求 头 的 使 用 方法 一 致 ， 设 置 proxies 
参数 即 可 ， 代 码 如 下 : 


import requests 
proxies = ( 
"http": "http://10.10.1.10:3128", 
"https": "http://10.10.1.10:1080", 
) 


requests.get ("https://www.baidu.com/", proxies-proxies) 


G) 证 书 验证 : 通常 设置 关闭 验证 即 可 。 在 请 求 设置 参数 verify=False 时 就 能 
关闭 证 书 的 验证 ， 默 认 情况 下 是 True。 如 果 需 要 设置 证 书 文件 ， 那 么 可 以 设置 参数 
verify 值 为 证 书 路 径 。 


import requests 

url = 'https://kyfw.12306.cn/otn/leftTicket/init"' 

# 关闭 证 书 验证 

r = requests.get(url, verify-False) 
print(r.status code) 

# 开启 证 书 验证 

# r = requests.get(url, verify-True) 

# 设置 证 书 所 在 路 径 

# r = requests.get(url, verify- '/path/to/certfile') 


(4) 超时 设置 : 发 送 请 求 后 ， 由 于 网 络 、 服 务 器 等 因素 ， 请 求 到 获得 相应 会 有 
一 个 时 间 差 。 如 果 不 想 程序 等 待 时间 过 长 或 者 延长 等 待 时 间 ， 可 以 设 定 timeout 的 等 
待 秒 数 ， 超 过 这 个 时 间 之 后 停止 等 待 响应 。 如 果 服 务 器 在 timeout 秒 内 没有 应 答 ， 将 
会 引发 一 个 异常 。 使 用 代码 如 下 : 


requests.get ("https://www.baidu.com/", timeout=0.001) 
requests.post ("https://www.baidu.com/", timeout=0.001) 


58 


第 6 章 Requests ZitigJI EX 


C5) 使 用 Cookies: 在 请 求 过 程 中 使 用 Cookies 也 只 需 设 置 参 数 Cookies 即 可 。 
Cookies 的 作用 是 标识 用 户 身份 ， 在 Requests 中 以 字典 或 RequestsCookieJar 对 象 作 为 
参数 。 获 取 方 式 主要 是 从 浏览 器 读 取 和 程序 运行 所 产生 。 下 面 的 例子 进一步 讲解 如 何 
使 用 Cookies， 代 码 如 下 : 


import requests 
temp cookies-'JSESSIONID GDS-y4p7osFr IYV5Udyd6cldrWE8MeTpQn0Y58T 
g8cCONVP020y2N!450649273; name-value' 
cookies dict = {} 
for i in temp cookies.split(';'): 
value = i.split('-') 
cookies dict [value[0]] = value[1] 
r = requests.get(url, cookies-cookies) 
print (r.text) 


代码 中 变量 temp. cookies 是 Cookies 信息 ， 可 以 在 Chrome 开发 者 工具 一 Network 
一 某 请 求 的 Headers 一 Request Headers 中 找到 Cookie 所 对 应 的 值 。 然 后 将 字符 串 转 
换 成 字典 格式 ， 转 换 规则 主要 执行 两 次 分 割 : 第 一 次 以 “; ”分 割 ， 得 到 列表 A， 第 
二 次 是 列表 A 的 每 一 个 元 素 以 “=” 分 割 ， 得 到 字典 的 键 值 对 。 

当 程 序 发 送 请 求 时 (不 设 参 数 cookies) ， 自 动 生成 一 个 RequestsCookieJar 对 象 ， 
该 对 象 用 于 存放 Cookies 信息 。Requests 提供 RequestsCookieJar 对 象 和 字典 对 象 相 互 
转换 ， 代 码 如 下 : 


import requests 

url = 'https://movie.douban.com/' 

r = requests.get (url) 

# r.cookies Æ RequestsCookieJar 对 象 
print (r.cookies) 


mycookies = r.cookies 


4 RequestsCookieJar 转换 字典 
cookies dict - requests.utils.dict from cookiejar (mycookies) 


print(cookies dict) 


4 字典 转换 RequestsCookieJar 
cookies jar - requests.utils.cookiejar from dict(cookies dict, 


cookiejar-None, overwrite-True) 
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print(cookies jar) 


4 TE RequestsCookieJar 对 象 添加 Cookies 字典 中 


print(requests.utils.add dict to cookiejar(mycookies, cookies 


dict)) 


如 果 要 将 Cookies 写 入 文件 ， 可 使 用 http 模块 实现 Cookies 的 读 写 。 除 此 之 外 ， 


还 可 以 将 Cookies 以 字典 形式 写 入 文件 ， 此 方法 相 比 http 模块 读 写 Cookies 更 为 简单 ， 


但 安 


全 性 相对 较 低 。 使 用 方法 如 下 : 


import requests 

url = 'https://movie.douban.com/' 

r = requests.get (url) 

# RequestsCookieJar 转换 字典 

cookies dict = requests.utils.dict from cookiejar (mycookies) 
# 写 入 文件 

f = open('cookies.txt', 'w', encoding-'utf-8') 
f.write(str(cookies dict)) 

f.close() 

+ 读 取 文 件 

f = open('cookies.txt', 'r') 

dict value - f.read() 

f.close() 

# eval(dict value) 将 字符 串 转换 为 字典 
print(eval(dict value)) 

r = requests.get(url, cookies-eval(dict value)) 


print(r.status code) 
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下 载 文件 主要 从 服务 器 获取 文件 内 容 ， 然 后 将 内 容 保 存 到 本 地 。 下 载 文件 的 方法 


如 下 : 


import requests 


url = 'http://cc.stream.qqmusic.qq.com/C100001Yyla31Dr60y. 


m4a?fromtag=52" 
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r= requests.get (url) 
f = open('mymusic.m4a', 'wb') 
# r.content 获取 响应 内 容 〈 字 节 流 ) 
f.write(r.content) 
f.close() 

代码 变量 url 是 一 个 音频 文件 URL 地 址 ， 对 文件 所 在 URL 地 址 发 送 请 求 〈 大 多 
数 是 GET 请 求 方式 ) ; 服务 器 将 文件 内 容 作 为 响应 内 容 ， 然 后 将 得 到 的 内 容 以 字 节 
流 Bytes) 格式 写 入 自 定义 文件 ， 这 样 就 能 实现 文件 下 载 。 

除了 文件 下 载 外 ， 还 有 更 为 复杂 的 文件 上 传 ， 文 件 上 传 是 将 本 地 文件 以 字 节 流 的 
方式 上 传 到 服务 器 ， 再 由 服务 器 接收 上 传 内 容 ， 并 做 出 相应 的 响应 。 文 件 上 传 存在 一 
定 的 难度 ， 其 难点 在 于 服务 器 接收 规则 不 同 ， 不 同 的 网 站 ， 接 收 的 数据 格式 和 数据 内 
容 会 不 一 致 。 下 面 以 发 送 图 片 微 博 为 例 进行 介绍 。 

(1) 在 浏览 器 中 输入 https://weibo.cn/， 在 网 页 上 单 击 “ 高 级 ”按钮 并 使 用 
Fiddler 抓 包 工具 由 于 发 送 微 博时 ， 网 页 发 生 302 跳 转 ， 因 此 使 用 Chrome 会 清空 请 
求 信息 ， 导 致 抓 取 难度 较 大 ) 。 

DAR ARE”, ARRA AFRA RA NA“ Python ER”, 最 后 单 击 “ 发 
布 ” 按 钮 发 布 微 博 。 查 看 Fidder 抓 取 的 请 求 信息 ， 如 图 6-2 所 示 。 








File Edit Rules Tools View Help 
[EE winconfig C) 4p Replay X- P Go |È Stream likDecode Keep: Al sessions ~ &P Any Process 的 Fnd [glseve iR Ó f$ Browse - Q Clear Cache 


























= [NT I Cj nes mire ] 
oi (sus | SÀ rouo | 2 aumtegende | (M composer | i nader orchesvaveta | rodesopt | 
回 2 Headers | Tothom | emtawew |[wbrome | Hehe | mih | codes | fam | xou | o | 

o 

Da Name, ^ 
os 

Se i3 
B7 




















xw ow | 


























6-2 Fiddler 抓 取 的 请 求 信息 
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从 图 6-2 得 知 ， 该 请 求 方式 是 POST，QueryString 是 POST 的 请 求 参数 data, 
Content-type 是 上 传 文件 ， 三 个 Content-Disposition 分 别 对 应 发 布 内 容 、 发 布 图 片 和 设 
置 分 组 可 见 。 代 码 实现 如 下 : 


url = 'https://weibo.cn/mblog/sendmblog?rl-0&st-bd6702" 
cookies = ['xxx'i5 *'xxx"') 
files = ('content': (None, 'Python IEH ') A 
'pic': ('pic', open('test.png', 'rb'), 
'image/png'),'visible': (None, '0')) 
r = requests.post(url, files-files, cookies-cookies) 


print(r.status code) 


POST 数据 对 象 是 以 文件 为 主 的 ， 上 传 文件 时 使 用 fles 参数 作为 请 求 参数 。 
Requests 对 提交 的 数据 和 文件 所 使 用 的 请 求 参数 做 了 明确 的 规定 。 

参数 files 也 是 以 字典 形式 传递 的 ， 每 个 Content-Disposition 为 字典 的 键 值 对 ， 
Content-Disposition 的 name 为 字典 的 键 ，value 为 字典 的 值 。 

此 外 ， 不 同 的 网 站 设置 对 files 参数 的 设置 也 是 不 一 样 的 ， 下 面 列 出 较为 常见 的 上 
传 方法 : 


+ 单独 一 个 文件 请 求 
{ 

"field1" : open("filePathl", "rb").read()) 
) 


# 同时 选中 多 个 文件 
( 
"fieldi" : [ 

("filenamel", open("filePathl", "rb")), 
("filename2", open("filePath2", "rb"), "image/png"), 
open("filePath3", "rb"), 
open("filePath4", "rb").read() 
1 
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6.5 本 章 小 结 





Requests 是 Python 的 一 个 很 实用 的 HTTP 客户 端 库 ， 可 完全 满足 如 今 编写 网 络 
息 虫 程序 的 需求 ， 是 息 虫 开发 人 员 首 选 的 息 虫 库 。 其 具有 语法 简单 易 懂 ， 完 全 符合 
Python 优雅 和 简洁 的 特性 , 在 兼容 性 上 完全 兼容 Python 任何 版 本 , 具有 较 强 的 适用 性 。 


读者 要 掌握 Requests 实现 GET 和 POST 请 求 是 分 别 使 用 了 不 同 的 方法 ， 如 下 : 


import requests 

url = 'https://baidu.com/' 

* GET 请 求 

r = requests.get(url, headers-headers, proxies-proxies, 
verify-False, cookies-cookies) 

* POST 请 求 

r = requests.post(url, data-data, files-files, headers-headers, 
proxies-proxies, 


verify-False, cookies-cookies) 
Requests 的 GET 和 POST 将 请 求 中 所 需要 使 用 的 功能 都 以 参数 的 形式 直接 作用 
到 请 求 中 。 一 个 发 送 请 求 的 语句 就 已 包含 了 请 求 头 、 代 理 全、Cookies、 证 书 验证 、 
文件 上 传 等 功能 。 
另外 ，Requests 还 提供 了 rstatus code, rraw. r.content, rtext, rheaders. rjson(). 
rraise for status(). rurl. rcookies. rencoding 十 种 方法 获取 响应 内 容 。 
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7.1 验证 码 类 型 





在 开发 怜 虫 时 ， 经 常会 遇 到 验证 码 识别 ， 在 网 站 中 加 入 验证 码 的 目的 是 加 强 用 户 
安全 性 和 提高 反 聆 虫 机 制 ， 有 效 防止 对 某 一 个 特定 注册 用 户 用 特定 程序 暴力 破解 的 方 
式 不 断 地 进行 登录 尝试 。 在 此 简单 地 为 大 家 介绍 一 下 验证 码 的 种 类 。 


。 字符 验证 码 : 在 图 片上 随机 产生 数字 、 英 文字 母 或 汉字 ， 一 般 有 4 位 或 者 6 
位 验证 码 字符 。 通 过 添加 干扰 线 、 添 加 噪点 以 及 增加 字符 的 粘连 程度 和 旋转 
角度 来 增加 机 器 识别 的 难度 。 但 是 这 种 传统 的 验证 码 随 着 OCR 技术 的 发 展 ， 
能 够 轻易 地 被 破解 。 
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图 片 验证 码 : 图 片 验证 码 也 只 是 换 汤 不 换 药 ， 应 用 了 字符 验证 码 的 技术 ， 只 
是 不 是 随机 的 字符 ， 而 是 让 人 识别 图 片 ， 比 如 12306 的 验证 码 。 同 时 还 包括 
一 些 将 广告 嵌入 图 片上 面 的 验证 码 ， 都 应 该 归属 到 这 一 类 。 

GIF 动画 验证 码 : 主流 验证 码 提供 静态 的 图 片 ， 比 较 容 易 被 OCR 软件 识别 ， 
有 的 网 站 提供 GIF 动态 的 验证 码 图 片 ， 使 得 识别 器 不 容易 辨识 哪 一 个 图 层 是 
真正 的 验证 码 图 片 , 在 提供 清晰 图 片 的 同时 , 可 以 更 有 效 地 防止 识别 器 的 识别 。 
据 统计 ， 动 画 GIF 验证 码 的 防 垃圾 注入 可 以 达到 100%， 是 一 个 非常 有 效 的 验 
证 码 创新 模式 。 同 时 ,GIF 动画 效果 多 达 百 种 ,也 可 以 增加 网 站 页 面 的 美观 效果 。 
极 验 验 证 码 ; 是 极 验 验 证 于 2012 年 推出 的 新 型 验证 码 ， 基 于 行为 式 验证 技术 ， 
通过 拖 动 滑 块 完成 拼图 的 形式 实现 验证 ， 是 目前 看 到 的 比较 有 创意 的 验证 码 ， 
安全 性 具有 新 的 突破 。 

手机 验证 码 : 通过 短信 的 形式 发 送 到 用 户 手机 上 面 的 验证 码 ， 一 般 为 6 位 的 
数字 。 

语音 验证 码 : 也 属于 手机 端 验 证 的 一 种 方式 。 

视频 验证 码 : 视频 验证 码 是 验证 码 中 的 新 秀 ， 在 视频 验证 码 中 ， 将 随机 数字 、 
字母 和 中 文 组 合 而 成 的 验证 码 动态 嵌入 MP4、FLV 等 格式 的 视频 中 ， 增 大 破 
解难 度 。 验 证 码 视 频 动态 变换 、 随 机 响应 ， 可 以 有 效 防范 字典 攻击 、 穷 举 攻 
击 等 攻击 行为 。 视 频 中 的 验证 码 字母 、 数 字 组 合 ， 字 体 的 形状 、 大 小 ， 速 度 
的 快慢 ， 显 示 效 果 和 轨迹 的 动态 变换 ， 增 加 了 恶意 抓 屏 破解 的 难度 。 其 安全 
度 远 高 于 普通 的 验证 码 ， 而 且 这 种 验证 码 形式 使 用 户 不 会 感到 枯燥 ， 由 于 其 
提高 了 机 器 识别 的 难度 , 因此 可 以 降低 用 户 识别 的 难度 , 使 得 用 户 更 容易 辨认 。 


现在 大 多 数 网 站 还 使 用 字符 验证 码 ， 主 要 用 于 用 户 登录 。 有 些 网 站 数据 需要 用 户 
登录 才 有 访问 权限 ， 怜 取 这 样 的 数据 时 ， 首 先 要 完成 用 户 登录 ， 获 取 访 问 权 限 才能 继 
续 下 一 步 的 数据 咎 取 。 

对 于 用 户 登录 设置 验证 码 识别 的 网 站 有 三 种 解决 方案 : 


OD 人 工 识别 验证 码 。 将 验证 码 图 片 下 载 到 本 地 ， 然 后 靠 使 用 者 自行 识别 并 将 
识别 内 容 输入 ， 程 序 获 取 输 入 内 容 ， 完 成 用 户 登 录 。 其 特点 是 开发 简单 ， 适 合 初学 者 ， 
但 过 分 依赖 人 为 控制 ， 难 以 实现 批量 候 取 。 

(2) 通过 Python 调用 OCR 引擎 识别 验证 码 。 这 是 最 理想 的 解决 方案 ， 但 正常 
情况 下 ，OCR 准确 率 较 低 ， 需 要 机 器 学 习 不 断 提高 OCR 准确 率 ， 开 发 成 本 相对 较 高 。 
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G) 调用 API 使 用 第 三 方 平台 识别 验证 码 。 开 发 成 本 较 低 ， 有 完善 的 API 接口 ， 
直接 调用 即 可 ， 识 别 准 确 率 高 ， 但 每 次 识别 需 收取 小 额 费用 。 


上 述 方案 是 目前 解决 验证 码 最 有 效 的 手段 ， 本 章 主 要 介绍 如 何 使 用 OCR 技术 和 
第 三 方 平台 识别 验证 码 。 


7.2 OCR 技术 





OCR (Optical Character Recognition， 光 学 字符 识别 ) 是 指 电子 设备 (例如 扫描 
仪 或 数码 相机 ) 检查 纸 上 打印 的 字符 ， 通 过 检测 暗 、 亮 的 模式 确定 其 形状 ， 然 后 用 字 
符 识别 方法 将 形状 翻译 成 计算 机 文字 的 过 程 ， 即 针对 印刷 体 字符 ， 采 用 光学 的 方式 将 
纸 质 文档 中 的 文字 转换 成 为 黑白 点 阵 的 图 像 文件 ， 并 通过 识别 软件 将 图 像 中 的 文字 转 
换 成 文本 格式 ， 供 文字 处 理 软件 进一步 编辑 加 工 的 技术 。 

在 Python 中， 支持 ORC 的 模块 有 pytesser3 和 pyocr， 其 原理 主要 是 通过 模块 功 
能 调用 OCR 引擎 识别 图 片 ，OCR 引擎 再 将 识别 的 结果 返回 到 程序 中 。 本 节 主 要 以 
pyocr 为 例 进 行 介绍 。 在 Windows 中 安装 pyocr 可 以 在 CMD 下 使 用 pip 安装 : 


pip install pyocr 


安装 pyocr 模块 之 后 ， 还 需要 安装 PIL 模块 ， 这 是 专门 用 于 处 理 图 片 的 模块 ， 
pyocr 依赖 该 模块 才能 完成 识别 ，pip 安装 如 下 : 


pip install Pillow 

完成 pyocr 和 PIL 模块 的 安装 后 ， 最 后 是 OCR 引擎 的 安装 ， 图 像 识别 主要 由 
OCR 引擎 完成 ，pyocr 只 起 到 一 个 调用 引擎 的 作用 。 

Tesseract-OCR 是 一 个 免费 、 开 源 的 OCR 引擎 ， 读 者 可 从 网 上 自行 搜索 下 载 安装 。 
在 Windows 系统 中 , OCR 引擎 (Tesseract-OCR) 可 通过 .exe 安装 包 安 装 。 值 得 注意 的 是 ， 
在 安装 过 程 中 有 附加 功能 选项 ， 如 图 7-1 所 示 。 

选项 “Tesseract development files” Æ OCR 开发 文件 ， 可 以 在 这 个 引擎 的 基础 上 
进行 二 次 开发 。 若 安装 时 勾 选 该 选项 ， 则 安装 过 程 中 会 访问 谷歌 服务 器 下 载 开发 文件 。 
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Select components to install: [V] Traning Tools 
[V] Shortcuts creation 
88 [V] Registry setttings 
S- Tesseract development fles 
S-E] Language data 














R 7-1 OCR 安装 选项 














选项 “Language data” 默 认 色 选 英文 ， 这 是 识别 文字 选项 。 如 果 要 识别 其 他 国家 
的 语言 ， 可 自行 勾 选 ， 但 勾 选 其 他 语言 ， 在 下 一 步 安装 时 需要 访问 谷歌 下 载 文件 。 除 
此 之 外 , 可 自行 下 载 chi_sim.traineddata 文件 (中文 简体 语言 包 )， 然后 放 到 C:\Program 
Files (x86)\Tesseract-OCR\tessdata 文件 夹 下 即 可 (上 述 路 径 是 OCR 引擎 默认 的 安装 
路 径 ) 。 
完成 上 述 安装 后 ， 就 能 在 Python 中 使 用 pyocr 实现 OCR 识别 了 ， 方 法 如 下 : 





(1) 创建 OCR 文件 夹 ， 在 该 文件 夹 下 创建 ocr.py 文件 和 图 片 pic.png， 如 图 7-2 
所 示 。 
(2) 打开 ocr.py 文件 ， 输 入 代码 : 


from PIL import Image 

from pyocr import tesseract 

# 使 用 PIL 打开 图 片 

im = Image.open('pic.png') 

# OCR 识别 

code = tesseract.image to_string (im) 


print (code) 


(3) 运行 ocrpy， 运 行 结果 如 图 7-3 所 示 。 





这 台电 脑 本 地 磁盘 (E) ， OCR 





BE:\Python\python. exe E:/0CR/orc. py 























A 2334234 
Eo 
aria | Process finished with exit code 0 
orcpy picpng 
图 7-2 OCR 使 用 图 7-3 验证 码 识别 结果 


























在 实际 使 用 时 ， 验 证 码 图 片 不 会 是 一 张 白 底 黑 字 的 图 片 ， 往 往 会 掺 入 很 多 干扰 
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素 ， 这 样 会 导致 识别 出 来 的 结果 与 实际 相 红色 背景 蓝 色 背景 


差 其 大。 为 了 提高 准确 率 ， 可 以 使 用 PIL 


模块 对 图 片 进行 简单 的 处 理 , 如 图 74 所 示 。 TEEI E 


图 7-4 分 别 是 带 红色 和 蓝 色 背景 的 验证 码 ， 而 且 背 景 颜 色 带 有 其 他 杂 色 ， 如 果 使 
上 述 代码 对 图 片 进行 识别 ， 识 别 结果 就 与 实际 完全 不 相符 。 因 此 ， 我 们 可 以 对 图 片 
做 简单 的 处 理 , 去 掉 干扰 因素 , 提高 识别 准确 率 。 图 片 处 理 主要 由 PIL 模块 实现 , 图 7-4 
中 的 验证 码 分 别 命名 为 picl.png 和 pic2.png 文件 ， 实 现代 码 如 下 : 


from PIL import Image 







































































from pyocr import tesseract 


pic list - ['picl.png','pic2.png'] 

for i in pic list: 
im = Image.open(i) 
im = im.convert('L')4 图 片 转换 为 灰色 图 像 
# 保存 转换 后 的 图 片 
im.save ("temp.png") 
code = tesseract.image to string (im) 
print (code) 


PIL 模块 打开 图 片 并 生成 图 片 对 象 m， 然 后 转换 图 片 颜色 模式 ， 将 带 有 颜色 的 图 
片 转 换 成 灰 度 模式 ， 形 成 黑 一 灰 一 白 的 过 渡 ， 如 同 黑白 照片 ， 最 后 交 给 OCR 引擎 识 
别 并 返回 识别 结果 。 








补充 说 明 : 颜色 模式 是 将 某 种 颜色 表现 为 数字 形式 的 模型 ， 或 者 是 一 种 记录 图 像 
颜色 的 方式 ， 分 为 RGB 模式 、CMYK 模式 、HSB 模式 、Lab 颜色 模式 、 位 图 模式 、 
灰 度 模式 、 索 引 颜色 模式 、 双 色调 模式 和 多 通道 模式 。 

程序 运行 结果 如 图 7-5 所 示 。 














E :\Python\python. exe E:/0CR/orc. py 
IMDS 
SXRB 





Process finished with exit code 0 








7-5 验证 码 识别 结果 
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本 书 只 介绍 简单 的 图 片 处 理 ， 不 同 的 图 片 有 不 同 的 处 理 方法 ， 其 目的 是 提高 
OCR 识别 的 准确 率 。 除 此 之 外 , 提高 OCR 准确 率 还 可 以 对 OCR 引擎 进行 训练 和 学 习 。 
但 两 者 已 经 属于 人 工 智能 的 领域 ， 其 涉及 较 多 的 知识 点 ， 所 以 就 不 一 一 讲解 了 。 


7.3 第 三 方 平台 


除了 使 用 OCR 识别 验证 码 之 外 ， 还 可 以 利用 第 三 方 平台 实现 验证 码 的 识别 。 到 
目前 为 止 ， 这 是 解决 验证 码 最 快 、 最 简单 的 途径 ， 而 且 有 完善 的 API 接口 ， 能 帮助 开 
发 者 完成 快速 开发 的 需求 ， 但 每 次 调 取 API 接口 需要 收取 少量 费用 。 

验证 码 识别 平台 主要 有 : 





e HAPE: 主要 由 在 线 人 员 识 别 验证 码 。 开 发 者 只 需 调 用 平台 API 接 口 ， 一 
般 在 10 秒 内 返回 结果 。 识 别 错误 或 者 无 法 识别 不 收费 。 

o AI 开发 者 平台 : 主要 由 人 工 智 能 系统 识别 ， 准 确 率 取决 于 系统 的 智能 程度 。 
调用 API 接口 每 天 有 免费 使 用 次 数 ， 也 可 以 付费 使 用 。 目 前 ， 主 流 平台 有 百 
度 AI 和 腾讯 AI。 


本 书 以 打 码 平台 为 例 ， 在 浏览 器 上 访问 http://www.yundama.com/， 注 册 账 号 后 充 
值 就 能 调用 API 接口 识别 验证 码 ， 在 平台 上 提供 开发 文档 ， 代 码 如 下 : 


import json 
import time 
import requests 
class YDMHttp: 
apiurl = 'http://api.yundama.com/api.php' 
username = '' 
password = '' 
appid = '4055' 
appkey = 'c5e26d1a207df586d7aaec21522dd446"' 
def init (self, name, passwd, app id, app key): 
self.username = name 
self.password = passwd 
self.appid = str(app id) 
self.appkey - app key 
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def request (self, fields, files-[]1): 
response = self.post url(self.apiurl, fields, files) 
response = json.loads (response) 


return response 


def balance (self): 
data = ( 
'method': 'balance', 
'username': self.username, 
'"password': self.password, 
'appid': self.appid, 
'appkey': self.appkey 
} 
response = self.request (data) 
if response: 
if response['ret'] and response['ret'] < 0: 
return response['ret'] 
else: 
return response['balance'] 
else: 
return -9001 


def login(self): 
data = ('method': 'login', 'username': self.username, 
'password': self.password, 'appid': self.appid, 
'appkey': self.appkey)] 
response - self.request (data) 
if response: 
if response['ret'] and response['ret'] « 0: 
return response['ret'] 
else: 
return response['uid'] 
else: 
return -9001 


def upload(self, filename, codetype, timeout): 
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data = ('method': 'upload', 'username': self.username, 
'password': self.password, 'appid': self.appid, 
'appkey': self.appkey, 'codetype': str(codetype), 
"timeout': str(timeout)] 
file = ('file': filename] 
response - self.request(data, file) 
if response: 
if response['ret'] and response['ret'] « 0: 
return response['ret'] 
else: 
return response['cid'] 
else: 
return -9001 


def result(self, cid): 
data = ('method': 'result', 'username': self.username, 
'password': self.password, 'appid': self.appid, 
'appkey': self.appkey, 'cid': str(cid)] 
response = self.request (data) 


return response and response['text'] or '' 


def decode(self, file name, code type, time out): 
cid - self.upload(file name, code type, time out) 
if eid > 0: 
for i in range(0, time out): 
result = self.result (cid) 
if result !- '': 
return cid, result 
else: 
time.sleep(1) 
return -3003, '' 
else: 


return cid, '' 
def post url(self, url, fields, files-[]): 


for key in files: 


files[key] = open(files[key], 'rb') 
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res = requests.post(url, files-files, data-fields) 


return res.text 


def code verificate (name, passwd, file name, app id-4055, code 
type-1005, time out-60): 
# name: 云 打 码 注册 用 户 名 ; passwd: 用 户 密码 ; file name: 需要 识别 的 图 片 名 
app_key='c5e26d1a207df586d7aaec21522dd446' 
yundama obj = YDMHttp (name, passwd, app id, app key) 
cur uid - yundama obj.login() 
print('uid: $s' $ cur uid) 
rest - yundama obj.balance() 
print('balance: $s' $ rest) 
# 开始 识别 图 片 路 径 、 验 证 码 类 型 ID、 超 时 时 间 〈 秒 ) ， 并 显示 识别 结果 


cid, result = yundama obj.decode(file name, code type，time 





out) 
print('cid: $s, result: $s' $ (cid, result)) 
return result 
if name == ' main ': 
# 云 打 码 注册 的 登录 用 户 名 《通过 用 户 注册 ) 
username - 'xxx' 
# 登录 密码 
password - 'xxx' 


rs = code verificate (username, password, incode.pn 
de ' ficate( d, ' d ) 


使 用 方法 : HE du iir 5| AERCH, 然后 调用 code verificate) 方法 函数 ， 
传 入 已 注册 的 用 户 信息 和 需要 识别 的 图 片 即 可 。 


7.4 本 章 小 结 


本 章 中 读者 应 重点 掌握 以 下 内 容 。 

1. 验证 码 

验证 码 的 作用 是 加 强 用 户 安全 性 和 提高 反 聆 虫 机 制 ， 有 效 防止 这 种 问题 对 某 一 个 
特定 注册 用 户 用 特定 程序 暴力 破解 的 方式 不 断 地 进行 登录 尝试 。 

读者 要 了 解 解决 验证 码 的 以 下 几 种 方案 : 
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COD 人 工 识 别 验证 码 ， 将 验证 码 图 片 下 载 到 本 地 ， 然 后 靠 使 用 者 自行 识别 并 输 
入 识别 内 容 , 程序 获取 输入 的 内 容 后 , 用 户 完成 登录 。 其 特点 是 开发 简单 , 适合 初学 者 ， 
但 过 分 依赖 人 为 控制 ， 难 以 实现 批量 怜 取 。 

(2) 通过 Python 调用 OCR 引擎 识别 验证 码 。 这 是 最 理想 的 解决 方案 ， 但 OCR 
准确 率 较 低 ， 需 要 机 器 学 习 不 断 提 高 OCR 的 准确 率 ， 开 发 成 本 相对 较 高 。 

(3) 调用 API 使 用 第 三 方 平台 识别 验证 码 。 开 发 成 本 较 低 ， 有 完善 的 API 接口 ， 
直接 调用 即 可 ， 识 别 准确 率 高 ， 但 每 次 识别 需 收取 小 额 费 用 。 

2. OCR 


OCR (Optical Character Recognition， 光 学 字符 识别 ) 是 指使 用 电子 设备 (例如 
扫描 仪 或 数码 相机 〉 检 查 纸 上 打 印 的 字符 ， 通 过 检测 暗 、 亮 的 模式 确定 其 形状 ， 然 后 
用 字符 识别 方法 将 形状 翻译 成 计算 机 文字 的 过 程 ， 即 针对 印刷 体 字符 ， 采 用 光学 的 方 
式 将 纸 质 文档 中 的 文字 转换 成 为 黑白 点 阵 的 图 像 文件 ， 并 通过 识别 软件 将 图 像 中 的 文 
字 转 换 成 文本 格式 ， 供 文字 处 理 软件 进一步 编辑 加 工 的 技术 。 

Python 中 支持 的 ORC 模块 有 pytesser3 和 pyocr， 其 原理 主要 是 通过 模块 功能 调 
用 OCR 引擎 识别 图 片 ，OCR 引擎 再 将 识别 的 结果 返回 到 程序 中 。 

3. 验证 码 识 别 平台 

验证 码 识别 平台 主要 有 以 下 两 种 。 

(1) 打 码 平台 : 主要 由 在 线 人 员 识 别 验 证 码 。 开 发 者 只 需 调用 平台 AP 接口 ， 
一 般 在 10 秒 内 返回 结果 。 识 别 错误 或 者 无 法 识别 不 收费 。 

(D AI 开发 者 平台 : 主要 由 人 工 智能 系统 识别 ， 准 确 率 取决 于 系统 的 智能 程度 。 


调用 API 接口 使 用 ， 每 天 有 免费 使 用 次 数 ， 也 可 付费 使 用 ， 目 前 主流 平台 有 百度 AI 
和 腾讯 AI. 
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从 网 页 上 采集 数据 后 ， 数 据 大 多 数 是 杂乱 无 章 的 ， 这 时 需要 对 采集 的 数据 加 工 清 
洗 ， 去 掉 数 据 中 的 一 些 垃圾 数据 才能 得 到 我 们 所 需 的 数据 。 清 洗 数据 有 三 种 常用 的 方 
法 : 字符 串 操作 、 正 则 表达 式 和 第 三 方 模块 库 。 三 种 方法 在 不 同 场景 有 不 同 优势 ， 取 
长 补 短 ， 应 根据 实际 情况 选择 合理 的 清洗 方法 ， 三 种 方法 同时 出 现在 一 个 项 目 也 是 党 
见 的 事情 。 

用 于 清洗 数据 的 字符 串 操 作 : 截取 、 蔡 换 、 查 找 和 分 割 。 





(1) 截取 : 字符 串 [开始 位 置 : 结束 位 置 : 间隔 位 置 ]。 开 始 位 置 是 EAR 
表 从 左边 位 置 开 始 ， 负 数 代表 从 右边 位 置 开 始 ， 默 认 代表 从 0 开始 。 结 束 位 置 是 被 截 
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取 的 字符 串 位置 , 空 值 默认 取 到 字符 串 尾 部 。 间隔 位 置 默 认为 1, 截取 的 内 容 不 做 处 理 . 
如 果 设 置 为 2， 就 将 截取 的 内 容 再 隔 一 取 数 。 例 子 如 下 : 
# 字符 串 截取 


str = 'ABCDEFG' 

# 截取 第 一 位 到 第 三 位 的 字符 

print(' 截取 第 一 位 到 第 三 位 的 字符 : ' + str[0:3:]) 
# 截取 字符 串 的 全 部 字符 

print(' 截取 字符 串 的 全 部 字符 : ' + str[::]) 

# 截取 第 七 个 字符 到 结尾 

print(' 截取 第 七 个 字符 到 结尾 : ' + str[6::]) 

# 截取 从 头 开始 到 倒数 第 三 个 字符 之 前 

print (' 截取 从 头 开始 到 倒数 第 三 个 字符 之 前 : ' + str[:-3:]) 
# 截取 第 三 个 字符 

print(' 截取 第 三 个 字符 : ' + str[2]) 

# 截取 倒数 第 一 个 字符 

print (' 截取 倒数 第 一 个 字符 : ' + str[-1]) 

+ 与 原 字 符 串 顺序 相反 的 字符 串 

print(' 与 原 字 符 串 顺序 相反 的 字符 串 : ' + str[::-1]) 
# 截取 倒数 第 三 位 与 倒数 第 一 位 之 前 的 字符 

print (' 截取 倒数 第 三 位 与 倒数 第 一 位 之 前 的 字符 : ' + str[-3:-1:]) 
# 截取 倒数 第 三 位 到 结尾 

print (' 截取 倒数 第 三 位 到 结尾 : ' + str[-3::1) 

# 逆序 截取 

print(' 逆序 截取 : ' + str[:-5:-3]) 


QD 替换 : 字符 串 -replace( 被 替换 内 容 '' 蔡 换 后 内 容 )。 要 注意 的 是 ， 使 用 
replace 替换 字符 串 后 仅 为 临时 变量 ， 需 重新 赋值 才能 保存 。 例 子 如 下 : 


str = 'ABCABCABC' 

# 单个 内 容 蔡 换 
print(str.replace('C', 'V')) 
# 输出 内 容 : ABVABVABV 


# 字符 串 蔡 换 
print(str.replace('BC', 'WV')) 
# 输出 内 容 : AWVAWVAWV 

# 替换 成 特殊 符号 ( 空格 ) 
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print(str.replace('BC', ' ')) 


# 输出 内 容 : AAA 


(3) 查找 : 字符 串 .find( 要 查找 的 内 容 ' [, 开始 位 置 , 结束 位 置 ]， 开 始 位 置 和 
位 置 表示 要 查找 的 范围 ， 若 为 空 值 ， 则 表示 查找 所 有 。 找 到 目标 后 会 返回 目标 第 
内 容 所 在 的 位 置 ， 位 置 从 0 开始 算 ， 如 果 没 找到 ， 就 返回 -1。 例 子 如 下 : 


str = 'ABCDABC' 

# 查找 全 部 

print (str.find('A')) 
# 输出 内 容 : 0 


# 从 字符 串 第 4 个 开始 查找 
print (str.find('A', 3)) 
# 输出 内 容 : 4 


# 从 字符 串 第 2 个 到 第 6 个 开始 查找 ， 即 从 'BcDAB' 中 查找 'C" 
print(str.find('C', 1, 5)) 
# 输出 内 容 : 2 


# 查找 不 存在 的 内 容 
print (str.find('E')) 
* 输出 内 容 : -1 


除了 使 用 find 函数 查找 字符 串 中 某 个 内 容 之 外 ,index 函数 也 能 实现 同样 的 功能 。 


index 是 在 字符 串 里 查找 子 串 第 一 次 出 现 的 位 置 ， 类 似 于 字符 串 的 find 方法 ， 如 果 查 


找 不 
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到 子 串 ， 就 会 抛 出 异常 ， 而 不 是 返回 -1。 例 子 如 下 : 


str = 'ABCDABC' 
# 查找 全 部 
print (str.index('A')) 


* 输出 内 容 : 0 


# 从 字符 串 第 4 个 开始 查找 
print(str.index('A', 3)) 


* 输出 内 容 : 4 
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+ 从 字符 串 第 2 个 到 第 6 个 开始 查找 
print(str.index('C', 1, 5)) 
# 输出 内 容 : 2 


# 查找 不 存在 的 内 容 
print (str.index('E')) 
4 输出 内 容 : ValueError: substring not found 


(40 分 割 : 字符 串 .split( 分 割 符 ,分割 次 数 )。 如 果 存 在 分 割 次 数 ,就 仅 分 割 成 “分 
割 次 数 +1” 个 子 字符 串 ; 如 果 为 空 , 就 默认 全 部 分 割 。 分 割 后 , 返回 一 个 列表 类 型 数据 。 
例子 如 下 : 








str = 'ABCDABC' 

# 分 割 全 部 
print(str.split('B')) 

# 输出 内 容 : ['A', 'CDA', 'C'] 
# 分 割 一 次 
print(str.split('B', 1)) 

+ 输出 内 容 : ['A', 'CDABC'] 


字符 串 操 作 是 数据 清洗 的 基本 ， 可 以 解析 HTML， 但 纯 字 符 串 解析 HTML 会 导 
致 代 码 元 余 ， 不 便 维 护 ， 一 般 不 建议 这 样 操作 。 字 符 串 操作 主要 用 于 个 别 数据 清洗 ， 
且 数 据 具 有 一 定 的 特性 。 如 图 8-1 所 示 是 一 个 例子 。 




















€ > C |a FRE  hüps//kyfw.12306.n/otn/resources/js/framework/station namejs?station version=1.9031 








var station names = @bjb| 北 京北 |VAP|beijingbeilbjb|0ebjd| 北 京东 |BOP|beijingdong|bjd|lebjil 北 京 |BJP|beijinglbjl2e@bjn| 北 京 南 | 可 
南 |I2Q|guangzhounan|gzn|5@cqb| 重 庆 北 |CUW|chongqingbei|cqb|6&cqi | 重庆 |CQW|chongqing|cq|78cqn| 重 庆 南 |CRW|chongqingnan|cqn|8bgz 
海南 |SNH| shanghainan| shn| 11@sha| 上 海 虹桥 |AOH| shanghaihongqiao| shhq| 128shx| 上 海 西 |SXH| shanghaixi |shx|13@tjb| 天 津 北 |TBP|tianji 
iti | TIP| tian jinnan| t jn| 108t jx | Kj | TXP | tian jinxi | t jx | LT6cch | 4x |CCT | changchun | cc | 188ccn | IC 4&5 | CET | changchunnan | ccn | 196ccx| 
^| ICW | chengdudong cdd | 216cdn | Iii |CNV | chengdunan | ccn |22@cdu | 成 都 |CDW| chengdu | cd |238csh| Ci CSQ| changsha cs | 24@csn| 长 沙 南 
iti [FYS | fuzhounan | fzn| 278gya| 贵 阳 |GIW|guiyang|gy|28@gzh | 广州 |GzQ|guangzhou| gz | 29@gzx | 广州 西 | GXQ guangzhoux: | gzx| 30theb | 哈尔滨 
西 |WAB|haerbinxi|bebx|33@hfe| 合 肥 |HFHjhefeilhf|34@hfx| 合 肥 西 |HTH|hefeixilhfx|356hhd| 呼 和 浩特 东 |NDC|huhehaotedong|hhhtd|36hh 
东 |KEQ|haikoudong|hkd|38ehkd| 海 口 东 |HMQ|haikoudong|hkd| 398hko| 海 口 |VUQ|haikou |hk|40@hzd| 杭 州 东 | HGH| hangzhoudong | hzd| 41€hzh | 
南 |JNK| jinan| jn|44@jnd | 济南 东 |JAK| jinandong| jnd|45@jnx| 济南 西 |JGK| jinanxi | jnx|46@kmi | 昆明 |KMM|kunming|km|47@kmx | 昆明 西 |KXM | ki 
东 |LVJ|lanzhoudong|1zd|50@1zh| 兰 州 |L2J|lanzhou|1z|51@1zx| 兰州 西 |LAJ|1anzhouxi|1zx|52@nch | i A |NCG| nanchang |[ nc |538n ji | P sol 
aa lanz | 186 ib. 227 Liz k nD ahi iiaabuanabailaiah R7faia! DIE|cID| abiiioabhuanalain|SQf ii £YI -hamarzamm| nar|Ei 











mn 








图 8-1 12306 各 个 城市 的 站 点 信息 


在 浏览 器 中 输入 “https://kyfw.12306.cn/otn/leftTicket/init”， 在 开发 者 工具 
一 Network 一 JS 标签 中 可 找到 图 8-1 中 的 站 点 信息 。 根 据 内 容 分 析 ， 每 个 城市 有 5 个 
信息 ， 从 带 有 “@” 的 特殊 字符 开始 ， 每 个 信息 之 间 用 “|” 隔 开 。 如 果 想 要 获取 第 二 
个 和 第 三 个 信息 ， 可 以 根据 其 特性 以 “|” 进 行 字符 串 分 市， 代码 如 下 : 
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import requests 
def city name(): 
+ 构建 请 求 头 
headers = [('User-Agent': 
'Mozilla/5.0 (Windows NT 10.0; WOW64) 
AppleWebKit/537.36 ' 
' (KHTML, like Gecko) Chrome/63.0.3218.0 
Safari/537.36', 
'Referer': 
'https://kyfw.12306.cn/otn/login/init'] 
url = 'https://kyfw.12306.cn/otn/resources/js/framework/ 
station name.js?station version-1.9031' 
city code - requests.get(url, headers-headers, verify-False) 
# 数据 使 用 字符 串 操作 处 理 
city code list = city code.text.split("|") 
city dict - () 
for k, i in enumerate(city code list): 
Xf "e" xm ii 
* 城市 名 作为 字典 的 键 ， 城 市 编号 作为 字典 的 值 
city dict[city code list[k + 1]] = city code list[k + 
2].replace(' ', ""} 
return (city dict) 
# 输出 处 理 后 的 数据 


print(city name()) 


除了 使 用 split 对 字符 串 进行 分 割 之 外 ， 在 数据 赋值 之 前 还 要 使 用 replace 对 
数据 进行 蔡 换 ， 主 要 清洗 数据 中 含有 空白 的 内 容 。 在 一 些 设计 不 规范 的 网 站 中 ， 其 
HTML 中 的 数据 经 常 带 有 空白 内 容 和 一 些 特殊 符号 ， 可 以 使 用 replaceQ 对 这 类 数据 进 
行 清洗 。 


82 正则 表达 式 


正则 表达 式 是 用 于 处 理 字符 串 的 强大 工具 ， 拥 有 自己 独特 的 语法 以 及 一 个 独立 的 
处 理 引擎 ， 效 率 上 可 能 不 如 字符 串 处 理 方法 ， 但 功能 十 分 强大 。 得 益 于 这 一 点 ， 在 提 
供 了 正则 表达 式 的 语言 里 ， 正 则 表达 式 的 语法 都 是 一 样 的 ， 区 别 只 在 于 不 同 的 编程 语 
言 实现 支持 的 语法 数量 不 同 ， 但 不 用 担心 ， 不 被 支持 的 语法 通常 是 不 常用 的 部 分 。 
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学 习 正 则 表达 式 要 从 两 方面 着 手 : 正则 语法 和 正则 处 理 函数 。 
正则 语法 : 也 称 元 字符 ， 符 合 正 则 规则 ， 通 常 表示 一 些 不 寻常 的 匹配 操作 ， 或 者 
通过 重复 、 修 改 匹 配 意义 来 影响 正则 模式 的 其 他 部 分 。 常 用 语法 如 表 8-1 所 示 。 


表 8-1 正则 表达 式 元 字符 和 语法 


说 明 zx i 
匹配 任意 字符 (不 包括 换行 符 ) 'abc>>>'a.c>>> 结 果 为 : 'abc' 
匹配 开始 位 置 ， 多 行 模式 下 匹配 每 一 行 
的 开始 
匹配 结束 位 置 ， 多 行 模式 下 匹配 每 一 行 
的 结束 
匹配 前 一 个 元 字符 0 到 多 次 'abcccd'>>>'abc*>>> 结 果 为 : 'abecc' 
匹配 前 一 个 元 字符 1 到 多 次 'abcced'>>>'abc+"! ARA me 
一 一 个 元 字符 0 到 1 次 'abcccd'>>>'abc?>>> 结 果 为 : 
cou MM. 'abeccd 
EN 个 字符 m 到 n 次 'abcccd>>>'abc{2.3}d>>> 结 果 为 ，'abcccd' 
匹配 前 一 个 字符 m 到 n 次 ， 并 且 取 尽 可 
能 少 的 情况 
对 特殊 字符 进行 转 义 ， 或 者 指定 特殊 序列 | ac>>>'aNc>>> 结果 为 : 'ac 


iru aii abcd>>>a[bc]>>> 结 果 为 : 'ab' 


逻辑 表达 式 “ 或 ”， 比 如 alb 代表 可 匹配 abed>>>abelacd>>> 结 果 为 ,ab 

a 或 者 b 

被 括 起 来 的 表达 式 作为 一 个 分 组 。findall 

在 有 组 的 情况 下 只 显示 组 的 内 容 

添加 注释 ， 括 号 内 为 注释 内 容 ， 特 殊 构 | 'abc123'>>>'abc(?#fasd)123'>>> 结 果 

建 不 作为 分 组 为 : 'abcl23' 

顺序 肯定 环视 ， 表 示 所 在 位 置 右 侧 能 够 | 在 字符 串 'pythonretest' 中 (?=test) 会 匹 

匹配 括号 内 正则 配 'pythonre' 

顺序 否定 环视 ， 表 示 所 在 位 置 右 侧 不 能 MG RM RI test', 

匹配 括号 内 正则 也 就 是 说 字符 串 为 testpythonre， 那 么 
(2!test) 会 匹配 ' pythonre' 

逆序 肯定 环视 ， 表 示 所 在 位 置 左 侧 能 够 

匹配 括号 内 正则 

逆序 否定 环视 ， 表 示 所 在 位 置 左 侧 不 能 

匹配 括号 内 正则 








'abc'>>>""abc'>>> 结 果 为 : 'abc 





'abc>>>'abc$>>> 结 果 为 : 'abc 











'abccc'>>>'abc{2,3}?'>>> 结 果 为 : 'abce' 








'a123d'>>>'a(123)d'>>> 结 果 为 : '123' 




















与 0= … ) 实 例 一 至 
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正则 表达 式 特殊 序列 说 明 如 表 8-2 所 示 。 

表 8-2 正则 表达 式 特殊 序列 
特殊 表达 式 序列 说 明 
只 在 字符 串 开头 进行 匹配 
匹配 位 于 开头 或 者 结尾 的 空 字符 串 
匹配 不 位 于 开头 或 者 结尾 的 空 字符 串 
匹配 任意 十 进 制 数 ， 相 当 于 [0-9] 
匹配 任意 非 数字 字符 ， 相 当 于 [^0-9] 
匹配 任意 空白 字符 ， 相 当 于 [VM] 
匹配 任意 非 空白 字符 ， 相 当 于 [^ Vf] 
匹配 任意 数字 和 字母 ， 相 当 于 [a-zA-Z0-9 ] 
匹配 任意 非 数字 和 字母 的 字符 ， 相 当 于 [^a-zA-Z0-9 ] 


正则 处 理 函 数 ， Python 的 正则 模块 是 re， 该 模块 含有 多 种 正则 处 理 函 数 ， 常 用 的 
功能 函数 包括 : match、search、findall 和 sub。 
(1) re.match(pattern, string, flags=0)，re.match 函数 尝试 从 字符 串 的 开头 开始 匹 
配 一 个 模式 ， 如 果 匹 配 成 功 ， 就 返回 一 个 匹配 成 功 的 对 象 ， 否 则 返回 None. 
【参数 解释 】 
e pattem: 匹配 的 正则 表达 式 。 
e string: 要 匹配 的 字符 串 。 
* flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 
行 匹 配 等 。 
参数 flags 的 可 选 值 如 下 。 
e relreIGNORECASE): 忽略 大 小 写 。 
* reM(MULTILINE: 多 行 模式 ， 改 变 ds 的 行为 。 
© re S(DOTALL): 此 模式 下 ，'… 的 匹配 不 受 限 制 ， 可 匹配 任何 字符 ， 包 括 换行 符 。 
* rel(LOCALE) 字符 集 本 地 化 ， 为 了 支持 多 语言 版 本 的 字符 集 使 用 环境 ， 比 
如 转 义 符 \w。 
e  reU(UNICODE): 使 预定 字符 类 \w W Vb \B s S d VD 取决 于 unicode 定义 的 
字符 属性 。 
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* reX(VERBOSE): 详细 模式 。 在 这 个 模式 下 ， 正 则 表达 式 可 以 是 多 行 的 ， 忽 
略 空白 字符 ， 并 可 以 加 入 注释 。 


该 函数 匹配 之 后 ， 得 出 一 个 match 对 象 类 型 ， 如 果 要 返回 结果 ， 那 么 可 以 使 用 
group() 或 groups) 匹配 对 象 函数 来 获取 匹配 后 的 结果 。 例 子 如 下 : 


import re 

text = "This is the last one" 

res = re.match('(.*) is (.*?) .*', text, re.M | re.I) 
if res: 


print("res.group() : ", res.group()) 
print("res.group(1) : ", res.group(1)) 
print("res.group(2) : ", res.group(2)) 
print("res.groups() : ", res.groups()) 
else: 


print("No match!!") 
输出 结果 : 


res.group() : This is the last one 
res.group(1) : This 

res.group(2) : the 

res.groups() : ('This', 'the') 


对 于 代码 中 的 “(.*)”，“.” 代 表 匹 配 任意 字符 ，“*” 代 表 匹 配 前 一 个 字符 0 次 
或 多 次 ， 两 者 结合 匹配 出 “This”; 在 “is” 后 面 的 “(.*?) .*” 代 表 获 取 is 后 面 的 全 
部 数据 ， 其 中 小 括号 匹配 结果 ，“.*?” 用 于 匹配 一 个 单词 “the”， 而 括号 外 的 “.*” 
用 于 匹配 任意 字符 ， 但 不 返回 给 匹配 结果 。 如 果 对 这 部 分 较 难 理解 ， 读 者 可 以 自行 比 
较 以 下 匹配 结果 : 


res = re.match('(.*) is (.*?) (.*)', text, re.M | re.I) 
res = re.match('(.*) is (.*) (.*)', text, re.M | re.I) 
res = re.match('(.*) is (.*)', text, re.M | re.I) 

fs 


res = re.match('(.*) is *?)', text, re.M | re.I) 


(2) re.search(pattern, string, Hags=0)， 扫 描 整个 字符 串 并 返回 第 一 次 成 功 匹 配 的 
对 象 ， 如 果 匹 配 失败 ， 就 返回 None. 
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【参数 解释 】 

e pattern: 匹配 的 正则 表达 式 。 

e sting: 要 匹配 的 字符 囊 。 

。 flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 
行 匹配 等 ，flags 可 选 值 与 match 一 样 。 


匹配 结果 跟 re.match 函数 一 样 ， 使 用 groupO 和 groups( 方法 来 获取 。 

将 re.match 的 例子 改 为 re.search， 得 出 的 结果 是 一 致 的 。search 和 match 的 使 用 
方法 相似 , 不 过 两 者 运行 逻辑 不 同 ,两 者 的 主要 区 别 : rematch 只 匹配 字符 串 的 开始 ， 
如 果 字 符 串 开始 不 符合 正则 表达 式 ， 匹 配 就 会 失败 ， 函 数 返 回 None; 而 re.search 匹 
配 整个 字符 串 ， 直 到 找到 一 个 匹配 的 字符 串 ， 和 否则 也 返回 None. 

(3) re.findall(pattern, string, flags=0)， 获 取 字 符 串 中 所 有 匹配 的 字符 串 ， 并 以 列 
表 的 形式 返回 。 列 表 中 的 元 素 有 如 下 几 种 情况 : 


O 当 正 则 表达 式 中 含有 多 个 圆 括号 时 ， 返 回 的 列表 元 素 为 多 个 字符 串 组 成 的 元 
组 ， 而 且 元 组 中 的 字符 串 个 数 与 括号 对 数 相同 ， 并 且 字 符 串 排放 顺序 跟 括号 出 现 的 顺 
序 一 致 ， 字 符 串 的 内 容 与 每 个 括号 内 的 正则 表达 式 相 对 应 。 

Q 当 正 则 表达 式 中 只 带 有 一 个 圆 括号 时 ， 返 回 的 列表 元 素 为 字符 串 ， 并 且 该 字 
符 串 的 内 容 与 括号 中 的 正则 表达 式 相 对 应 。( 注 意 : 返回 的 列表 FRFR) 只 是 圆 括 
号 中 的 内 容 ， 不 是 整个 正则 表达 式 所 匹配 的 内 容 。》) 

O 当 正则 表达 式 中 没有 圆 括号 时 ， 返 回 的 列表 中 的 字符 串 表示 整个 正则 表达 式 
匹配 的 内 容 。 

【参数 解释 】 

e pattern: 匹配 的 正则 表达 式 。 

e sting: 要 匹配 的 字符 串 。 

* flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 

行 匹配 等 ，flags 可 选 值 与 match 一 样 。 





匹配 结果 不 需要 使 用 group) 和 groupsO 方法 来 获取 。 例 子 如 下 : 


82 


第 8 章 数据 清洗 


import re 

+ 匹配 字符 串 中 所 有 含有 'oo' 字符 的 单词 

* 当 正 则 表达 式 中 没有 圆 括号 时 ， 列 表 中 的 字符 串 表 示 整 个 正则 表达 式 匹配 的 内 容 
find value = re.findall('Nw*ooNw*', 'woo this foo is too') 


print(find value) 


# 获取 字符 串 中 所 有 的 数字 字符 串 

# 当 正 则 表达 式 中 只 带 有 一 个 圆 括号 时 ， 列 表 中 的 元 素 为 字符 串 ， 并 且 该 字符 串 的 内 容 
与 括号 中 的 正则 表达 式 相对 应 

find value = re.findall('.*?(Nd*).*?', 'adsd12343.j134d5645fd789') 

print(find value) 


# 提取 字符 串 中 所 有 有 效 的 域名 地 址 

# 正则 表达 式 中 有 多 个 圆 括 号 时 ， 返 回 匹 配 成 功 的 列表 中 的 每 一 个 元 素 都 是 由 一 次 匹配 

* 成 功 后 ， 正 则 表达 式 中 所 有 括号 中 匹配 的 内 容 组 成 的 元 组 

add = 'https://www.net.com.edu//action-?asdfsd and other https:// 
www.baidu.com//a-b' 

find value = re.findall('((w(3)N.) (Ww*V.) t (comledulcn|net))', add) 

print (find value) 


输出 结果 : 

['woo', 'foo', 'too'] 

['12343', '34', '5645', '789'] 

[('www.net.com.edu', 'www.', 'com.', 'edu'), ('www.baidu.com', 
'www.', 'baidu.', 'com')] 

(4) re.sub(pattern, repl, string, count-0, flags-0), 用 于 蔡 换 字符 串 中 的 匹配 项 ， 
如 果 没有 匹配 的 项 ， 则 返回 没有 匹配 的 字符 串 。 

【参数 解释 】 

e pattem: 匹配 的 正则 表达 式 。 

。 rep: 用 于 替换 的 字符 串 。 

* sting: 要 被 替换 的 字符 串 。 

e comt: 替换 的 次 数 。 

。 flags: 标志 位 ， 用 于 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 是 否 多 

行 匹配 等 ，flags 可 选 值 与 match 一 样 。 
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匹配 结果 不 需要 使 用 groupO 和 groups 方法 来 获取 。 例 子 如 下 : 


import re 

+ 将 手机 号 的 后 4 位 蔡 换 成 0 

replace value = re.sub('Nd(4]$', '0000', '13435423143") 
print(replace value) 

# 将 代码 后 面 的 注释 信息 去 掉 


replace value = re.sub('4.*$', '', 'num = 0 £a number") 


print(replace value) 


输出 结果 : 


13435420000 
num = 0 


上 述 是 正则 处 理 函 数 的 常用 函数 ， 除 此 之 外 ， 正 则 处 理 函数 还 有 : 


re.split(pattern, string[, maxsplit]): 用 匹配 pattern 的 子 串 来 分 割 字 符 串 。 
re.subn(pattern, repl, string[, count]): 5 sub() 函数 一 样 ， 只 是 返回 结果 是 一 个 
元 组 。 

re.escape(string): 把 字符 囊 里 除了 字母 和 数字 以 外 的 字符 都 加 上 反 斜 杆 。 


re.finditer(pattern, string[, flags]): 搜索 字符 串 ， 按 顺序 返回 每 一 个 匹配 结果 的 
迭代 器 。 


在 学 习 正 则 表达 式 时 ， 难 点 是 如 何 根据 字符 串 内 容 编 写 正确 的 正则 表达 式 ， 元 字 
符 之 间 不 同 的 组 合 会 产生 不 同 的 结果 ， 要 熟练 掌握 正则 表达 式 ， 必 须 熟 知 每 个 元 字符 
的 作用 以 及 正则 处 理 函数 的 使 用 方法 。 


8.3 Beautiful Soup 介绍 及 安装 





Beautiful Soup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 。 其 功 
能 简单 而 强大 ， 容 错 能 力 高 ， 文 档 相 对 完善 ， 清 晰 易 懂 ， 具 有 三 个 特性 : 


(1) Beautiful Soup 提供 了 一 些 简单 的 方法 和 Python 术语 ， 用 于 检索 和 修改 语法 
树 : 一 个 用 于 解析 文档 并 提取 相关 信息 的 工具 包 。 
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(2) Beautiful Soup 自动 将 输入 文档 转换 为 Unicode 编码 ， 并 将 输出 文档 转化 为 
UTF-8 编码 。 不 需要 考虑 编码 ， 除 非 输入 文档 没有 指出 其 编码 并 且 Beautiful Soup 无 
法 自动 检测 到 ， 这 时 需要 指出 原来 的 编码 方式 。 

(3)Beautiful Soup 位 于 一 些 流行 的 Python 解析 器 中 , 比如 lxml 和 htmlslib 的 上 层 ， 
这 人 允许 使 用 不 同 的 解析 策略 或 者 牺牲 速度 来 换取 灵活 性 。 


Beautiful Soup 的 安装 涉及 第 三 方 的 扩展 ， 建 议 使 用 pip 安装 。 
pip install beautifulsoup4 


Beautiful Soup 支持 Python 标准 库 中 的 HTML 解析 器 ， 还 支持 一 些 第 三 方 的 解析 
常用 的 解析 器 有 Ixml 和 htmlslib。lxml 的 安装 如 下 : 


Ea 


pip install lxml 


Ixml 是 一 个 用 来 处 理 XML 的 第 三 方 Python 库 ， 它 的 底层 封装 了 由 C 语言 编写 
的 libxml2 和 libxslt， 并 以 简单 、 强 大 的 Python API 兼容 并 加 强 了 著名 的 ElementTree 
API。 


另 一 个 可 供 选 择 的 解析 器 是 纯 Python 实现 的 html5lib， 这 是 一 个 Ruby 和 Python 
用 来 解析 HTML 文档 的 类 库 ， 支 持 HTMLS 以 及 最 大 程度 兼容 桌面 浏览 器 。 使 用 pip 
安装 html5lib: 


pip install html5lib 


完成 上 述 安装 后 ， 在 CMD (Am) 下 验证 安装 是 否 成 功 ， 打 开 Python 交互 式 命 
令 行 〈 输 入 “Python”， 按 回 车 键 即 可 ) ， 输 入 代码 验证 即 可 : 


>>> import html5lib 

>>> html5lib. version . 
*9.999999999* 

>>> import lxml 

>>> import bs4 

>>> bs4. version . 
*4.6.0"* 


每 种 解析 器 都 有 自己 的 优 缺 点 ， 对 比如 表 8-3 所 示 。 
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表 8-3 各 种 解析 器 的 比较 


使 用 方法 优势 劣势 
BeautifulSoup(html, | 内 置 标准 库 ， 速 度 适中 ， | Python3.2 版 本 前 的 文档 
"html.parser") 文档 容错 能 力 强 
MEET E 
BeautifulSoup(html, 
"sml") 











速度 块 ， 唯一 支持 XML 


BeautifulSoup(html, | 容错 性 最 强 ， 可 生成 
"html5lib") HTML5 














在 选择 解析 器 的 时 候 ， 要 从 实际 出 发 ， 解 析 同 一 个 HIML， 不 同 的 解析 器 因为 容 
错 性 不 同 会 导致 不 同 的 结果 ， 若 得 到 的 数据 与 实际 存在 差异 ， 出 现 数据 丢失 和 解析 出 
来 的 数据 与 实际 不 相符 ， 则 有 可 能 是 解析 器 在 解析 HTML 时 出 现 错误 ， 可 选择 不 同 
的 解析 器 对 错误 逐一 排查 。 


8.4 Beautiful Soup 的 使 用 


通过 例子 说 明 如 何 使 用 Beautiful Soup, LA MySoup.html 文件 内 容 为 例 : 


<!DOCTYPE html» 

<html> 

<head> 

<meta charset="utf-8"> 

<title> Python</title> 

</head> 

<body> 

<p id="python"> 

<a href="/index.html"> Python </a>BeautifulSoup 的 使 用 
</p> 

<p class="myclass"> 

<a href="http://www.baidu.com/"> 这 是 </a> 一 个 指向 百度 的 页 面 的 URL. 
</p> 

</body> 

</html> 
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在 文件 MySoup.html 的 同一 目录 创建 Soup_ pypy 文件 ，Soup_py.py 的 代码 如 下 : 


# 引入 BeautifulSoup 

from bs4 import BeautifulSoup 

# 读 取 MySoup .html 文件 

Open file = open('MySoup.html', 'r', encoding-'utf-8') 
# 将 MySoup .html 的 内 容 赋值 给 Html_Content， 并 关闭 文件 

Html Content = Open file.read() 





Open file.close() 

# 使 用 html51ib 解释 器 解释 Html Content 的 内 容 

soup = BeautifulSoup(Html Content, "html5lib") 
* 输出 title 

print('html title is ' + soup.title.getText()) 
# EREDE p, H 
find_p = soup.find('p', id="python") 





EE 


print('the first «p» is ' + find p.getText()) 
# 查找 全 部 标签 p, 并 输出 
find all p = soup.find all('p') 
for i, k in enumerate (find all p): 
print('the ' + str(i + 1) + ' p is ' + k.getText ()) 


























3811 Soup py.py. 结果 如 图 8-2 所 示 。 Mal title is Python PIKTE GEAR RE 
代码 运行 时 ， 先 读 取 HTML 文件 的 pom 
内 容 ， 将 内 容 定义 到 一 个 BeautifulSoup the L p is 
对 象 中 ， 并 使 用 htmlslib 解析 HTML na, Python BeautifulSoup 的 使 用 
然后 使 用 Beautiful Soup 内 置 的 方法 找 出 kA REEERE, 
标题 的 值 和 <p> 的 值 。 


图 8-2 BeautifulSoup 解析 HTML 














前 面 的 例子 只 是 简单 介绍 了 Beautiful Soup 的 基本 用 法 ， 下 面 以 Python 的 交互 式 

















命令 行 演示 Beautiful Soup 的 更 多 用 法 (在 CMD 终端 中 输入 “Python”， 按 回 





键 可 进入 Python 的 交互 式 命令 行 ) 。 





(1) 查找 全 部 标签 ， 代 码 如 下 : 


Html content = """<html><head><title> Python</title></head> 
<p class="title"><b>Beautiful Soup 的 学 习 </b></p> 
«p class=”study”> 学 习 网 址 : http://blog.csdn.net/huangzhang 123 


车 
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<a href-"www.xxx.com" class-"abc" id="tryl">web FX </a>, 

<a href=" www.ccc.com " class-"bcd" id="try2"> KEH </a> and 
<a href=" www.aaa.com " class-"efg" id="try3"> AT% fë </a>; 
</p> 

<p class="other">...</p>""" 


from bs4 import BeautifulSoup 

soup = BeautifulSoup(Html content, "html5lib") 

# 以 下 是 查找 某 标签 的 方法 : 

# 获取 头 部 的 信息 ， 返 回 <head></head> 之 间 的 全 部 内 容 

soup.head 

+ 获取 title 的 信息 ， 返 回 <title></title> 之 间 的 全 部 内 容 

soup.title 

+ 这 是 一 个 获取 tag 的 小 窍门 ， 可 以 在 文档 树 的 tag 中 多 次 调用 这 个 方法 。 下 面 的 代码 
可 以 获取 «body» 标签 中 的 第 一 个 «b» 标签 

+ 也 就 是 说 ，soup 不 一 定 是 整个 html 的 内 容 ， 可 以 先 定位 某 部 分 ， 然 后 用 这 个 简洁 的 
方式 获取 

# 返回 "<b>Beautiful Soup 的 学 习 </b>" 

soup.body.b 

# 直接 指定 标签 类 别 ， 返 回 第 一 个 标签 的 内 容 。 返 回 "<a href-"www.xxx.com" 
class-"abc" 

# id = "tryl">web FR </a>" 

soup.a 

# 获取 第 一 个 标签 a 

soup .find all('a') 

# [<a href-"www.xxx.com" class-"abc" id="tryl">web FÈ </a>, 

#<a href=" www.ccc.com " class-"bcd" id-"try2"» Wiget </a>, 

#<a href=" www.aaa.com " class-"efg" id-"try3"» 人工 智 能 </a>] 


变量 Html content 是 一 个 HTML 内 容 ， 其 格式 为 字符 串 ，Beautiful Soup 对 
Html content 生成 对 象 soup。 数 据 获 取 是 从 soup 对 象 获取 ， 比 如 获取 head 和 title， 
可 从 soup.head 和 soup.title 直接 获取 。 想 获取 某 个 标签 值 ， 如 soup.a， 返 回 的 数据 格 
式 是 <class 'bs4.element.Tag'>, 这 是 Beautiful Soup 的 格式 , 代表 第 一 个 标签 的 全 部 内 容 ， 
若 想 获取 其 标签 在 网 页 上 显示 的 内 容 〈 去 除 HTML 代码 ) ， 则 可 通过 以 下 方法 : 


QD 通过 getText() 获取 标签 的 值 。 例 如 ，soup.a.getTextO 返回 的 是 “web FR” o 


O 通过 str0 方式 转换 为 字符 串 。 例 如 ，str(soup.a) 返回 的 是 “<a href-"www.xxx. 
com" class-"abc" id="tryl">web 开发 <a>”， 然 后 使 用 字符 串 截取 获取 的 数据 。 
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(2) 获 取 某 标签 的 属性 值 , 在 上 述 例子 中 , soup.a 可 以 获取 第 一 个 HIML 的 标签 a， 
如 果 想 获取 该 标签 里 面 的 属性 值 ， 沿 用 上 述 变 量 Html_content， 实 现代 码 如 下 : 


soup = BeautifulSoup(Html content, "html5lib") 

print (soup.a['class']) 

# 输出 内 容 : abc" 

值得 注意 的 是 ， 在 HTML 中 ，class 属性 可 带 有 多 个 CSS 样式 ， 如 果 HTML 的 属 
性 含有 多 个 CSS 样式 ，Beautiful Soup 会 以 列表 的 格式 返回 结果 。 例 子 如 下 : 

soup = BeautifulSoup('«a href-"www.xxx.com" class-"abc bcd"»web Jf 
A&«/a»', "html5lib") 

print (soup.a['class']) 

# 输出 内 容 : [ ‘abc’, ‘bcg’ ] 

G) 精准 查找 

上 述 例子 只 能 返回 第 一 个 标签 a， 如 果 想 获取 第 N 个 标签 a 或 者 精确 定位 到 某 个 
标签 ， 就 只 能 使 用 其 他 方法 实现 。 沿 用 上 述 变 量 Html_content， 实 现 精确 定位 标签 a， 
方法 如 下 : 


soup.find all('a', id=" try3") 
soup.find all('a', class -"efg", id-" try3") 
soup.find all('a', href == re.compile("aaa")) 


以 上 三 种 方式 都 可 以 定位 到 <a href" www.aaa.com " class=" efg" id=" try3" > 人 
工 智 能 </a> 这 个 标签 。 
QD 第 一 种 是 通过 一 个 属性 定位 ， 只 要 是 标签 里 具有 的 属性 都 可 以 定位 到 。 


Q 第 二 种 在 第 一 种 的 基础 上 增加 了 一 种 属性 ， 也 就 是 多 个 属性 一 起 定位 ， 这 样 
更 加 精准 。 


O 第 三 种 是 通过 正则 表达 式 进 行 模糊 匹配 ， 这 个 适合 属性 多 变 时 使 用 。 
在 Beautiful Soup 中 ，fnd0 和 find_all0 的 使 用 方法 一 样 。 两 者 的 区 别 在 于 : 


CD find_all0 返回 的 结果 是 包含 一 个 或 多 个 元 素 的 列表 ; 而 findo 方法 返回 的 是 第 
一 个 符合 要 求 的 结果 ， 格 式 为 字符 串 。 
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© Ë find all) 没有 找到 目标 ， 则 返回 空 列 表 ， 而 findo 方法 找 不 到 目标 时 ， 返 回 


None。 
(4) Beautiful Soup 支持 大 部 分 的 CSS 选择 器 。 


CSS 样式 定义 由 两 部 分 组 成 ， 形 式 为 : [code] 选择 器 { 样式 } [/code]。 

在 和 之 前 的 部 分 就 是 “选择 器 ”。“ 选 择 器 ”指明 了 {} 中 “样式 ”的 作用 对 象 ， 
也 就 是 “样式 ”作用 于 网 页 中 的 哪些 元 素 。 

CSS 选择 器 主要 是 由 前 端的 CSS 编写 的 ， 这 里 简单 介绍 一 下 Beautiful Soup 的 
CSS 选择 器 的 用 法 。 

e 通过 id 查找: soup.select("#try3")。 

日 ”通过 class 查找 : soup.select(".efg")。 

日 ”通过 属性 查找 : soup.select('a[class-"efg"]). 


上 述 三 个 方法 也 可 以 返回 <a href" www.aaa.com " class-"efg" id="try3"> 人 工 智 
能 </a> 这 个 标签 ， 与 find_all 实现 的 功能 一 样 。 


Beautiful Soup 在 爬虫 开发 中 担任 着 数据 清洗 的 角色 ， 掌 握 上 述 使 用 方法 就 能 解 
决绝 大 部 分 的 网 站 数据 清洗 问题 。 


8.5 本 章 小 结 


数据 清洗 是 怜 虫 开发 重要 的 一 环 ， 主 要 衔接 了 数据 扑 取 和 数据 入 库 。 常 用 的 数据 
清洗 方法 有 : 字符 串 操 作 、 正 则 表达 式 和 第 三 方 模块 〈 库 ) 。 


常用 数据 清洗 的 字符 串 操 作 有 截取 、 蔡 换 、 查 找 和 分 割 。 





。 截取 : 字符 串 [ 开 始 位 置 : 结束 位 置 : 间隔 位 置 ]。 

o 替换 : 字符 囊 replace(' 被 蔡 换 内 容 ',' 替 换 后 内 容 )。 

。 查找 : 字符 囊 find(' 要 查找 的 内 容 '[， 开 始 位 置 ， 结 束 位 置 ])。 
。 D? 字符 串 .split( 分 害 符 ,分割 次 数 )。 


90 


第 8 章 数据 清洗 


正则 表达 式 包含 正则 语法 和 正则 处 理 函 数 。 


正则 语法 : 也 称 元 字符 ， 这 类 符号 代表 正则 规则 ， 通 常 表示 一 些 不 寻常 的 匹 
配 操作 ， 或 者 通过 重复 、 修 改 匹配 意义 来 影响 正则 模式 的 其 他 部 分 。 


正则 处 理 函数 : Python 的 正则 模块 是 re， 该 模块 含有 多 种 正则 处 理 函 数 ， 功 
能 函数 包括 : 


(1) re.match(pattern, string, flags=0) 

(2) re.search(pattern, string, flags=0) 

(3) re.findall(pattern, string, flags-0) 

(4) re.sub(pattern, repl, string, count-0, flags-0) 
C5) re.split(pattern, string[, maxsplit]) 

(6) re.subn(pattern, repl, string[, count]) 

(7) re.escape(string) 


(8) re.finditer(pattern, string[, flags]) 


Beautiful Soup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 。 常 用 


的 数据 清洗 函数 如 下 。 
e 查找 全 部 标签 : soup.a， 返 回 第 一 个 标签 a。 
e ”获取 定位 元 素 ( 标 签 ) 的 值 ，soup.a.getText()， 获 取 第 一 个 标签 a 的 值 。 
. 


获取 标签 属性 : soup.a['href]， 获 取 整 个 HTML 第 一 个 标签 a 的 href 属性 值 。 
精准 查找 : find all) 和 find). 

> ”属性 定位 : soup.find all('a', id=" try3"). 

> 多 属性 定位 : soup.fnd_all(a' class ="efg", id=" try3"). 

> “正则 表达 式 模糊 匹配 : soup find all('a', href == re.compile("aaa")). 

CSS 选择 器 。 

> 通过 id 查找: soup.select("try3"). 

> it class 查找 : soup.select(".efg"). 

> ”通过 属性 查找 : soup.select('a[class="efe"]')。 
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9.1 CSV 数据 写 入 和 读 取 


常用 的 数据 存储 介质 有 文件 、 关 系 式 数 据 库 和 非 关系 式 数据 库 。 文 本 文档 存储 适 
用 于 具有 时 效 性 的 数据 ， 如 股市 行情 、 商 品 信息 和 排行 榜 信 息 等 ， 这 类 数据 具有 动态 
变化 性 质 ， 非 特殊 要 求 下 ， 建 议 存放 文件 。 

Python 标准 库 自 带 CSV 模块 ， 不 用 自行 安装 。 数 据 写 入 CSV 的 代码 如 下 

import csV 

# 若 存 在 文件 ， 则 打开 csv 文件 ， 若 不 存在 ， 则 新 建文 件 

+ 若 不 设置 newline=' '， 则 每 行 数 据 会 隔 一 行 空白 行 


csvfile = open('csv test.csv', 'w', newline-'') 


+ 将 文件 加 载 到 csv 对 象 中 
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writer = csv.writer (csvfile) 

+ 写 入 一 行 数据 

writer.writerow([' 姓名 "， 'fFüt', ' 电话 ']) 

# 多 行 数 据 写 入 

data = [ 
(C JNP', '18', '138001380000"), 
('":ħY', '22', '138001380000") 

] 

writer.writerows (data) 

# 关闭 csv 对 象 


csvfile.close() 

写 入 CSV 时 使 用 open 函数 打开 文件 ，open 函数 最 好 设置 参数 “newline” 为 
空 ， 和 否则 每 次 写 入 一 行 数据 ， 数 据 之 间 就 会 空 出 一 行 空白 行 。 将 打开 的 文件 对 象 加 
载 到 CSV 对 象 中 ， 写 入 数据 分 为 单行 号 入 和 多 行 写 入 ， 对 应 函数 分 别 是 writerow 和 
writerows。 

读 取 CSV 文 件 , 读 取 函数 有 reader 和 DictReader, 两 者 都 是 接收 一 个 可 和 迭代 的 对 象 ， 
返回 一 个 生成 器 。reader 函数 是 将 一 行 数据 以 列表 形式 返回 ，DictReader 函数 返回 的 
是 一 个 字典 ， 字 典 的 值 是 单元 格 的 值 ， 而 字典 的 键 则 是 这 个 单元 格 的 标题 〈 列 头 ) 。 
代码 如 下 : 


import csv 





csvfile = open('csv test.csv', 'r') 
# 以 列表 形式 输出 

reader = csv.reader (csvfile) 

# 以 字典 形式 输出 ， 第 一 行 作为 字典 的 键 

4 reader = csv.DictReader (csvfile) 
rows = [row for row in reader] 
print (rows) 


上 述 代码 用 于 获取 全 部 数据 ， 如 果 要 获取 某 行 数据 ， 就 可 以 循环 全 部 数据 ， 再 对 
每 行 数据 做 一 个 判断 ， 判 断 是 否 符合 筛选 条 件 ， 代 码 如 下 : 


import csv 
csvfile = open('csv test.csv', 'r') 
# 以 列表 形式 输出 


reader = csv.reader (csvfile) 
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for row in reader: 
if '/|P' in row: 
print (row) 
以 字典 形式 输出 ， 第 一 行 作为 字典 的 键 
reader = csv.DictReader (csvfile) 
for row in reader: 
if row[' 姓名 ']==' 小 P': 
print (row) 


要 获取 某 行 数据 ， 使 用 不 同 函 数 会 有 不 同 的 判断 方式 ，reader 函数 返回 的 是 列表 ， 


DictReader 返回 的 是 字典 ， 要 根据 某 个 值 判断 筛选 ， 所 采用 的 方法 也 不 一 样 。CSV 的 
存储 相对 较为 简单 ， 而 且 实用 性 比较 强 。 


LINE + + 


9.2 Excel 数据 写 入 和 读 取 


Python 操作 的 Excel 库 有 xlrd, xlwt, pyExcelerator 和 openpyxl。 其 中 ，pyExcelerator 
只 支持 2003 版 本 ，openpyxl 只 支持 2007 版 本 ，xlrd 支持 Excel 任何 版 本 的 读 取 ， 
xlwt 支持 Excel 任何 版 本 的 写 入 。 

为 了 版 本 的 兼容 性 ， 大 多 数 开 发 人 员 选 择 使 用 xlrd 和 xlwt 操作 Excel。xlrd 和 
xlwt 的 安装 如 下 : 





pip install xlrd 
pip install xlwt 


完成 安装 后 ， 在 Python 交互 式 命令 行 输入 验证 代码 : 


>>> import xlwt 

>>> import xlrd 

>>> xlrd. VERSION . 
*1.1.0* 

>>> xlwt. VERSION _ 
*1.3.0* 


Excel 的 写 入 相对 比 CVS 复杂 ，Excel 可 以 实现 设置 数据 格式 、 合 并 单元 格 、 设 
置 公式 和 插入 图 片 等 功能 。 使 用 xlwt 实现 上 述 功 能 的 代码 如 下 : 
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import xlwt 

# 新 建 一 个 Excel 文件 

wb = xlwt.Workbook() 

# 新 建 一 个 Sheet 

ws = wb.add sheet('Python', cell overwrite ok-True) 

# 定义 字体 对 齐 方式 对 象 

alignment = xlwt.Alignment() 

# 设置 水 平方 向 

# HORZ GENERAL, HORZ LEFT, HORZ CENTER, HORZ RIGHT, HORZ FILLED 
# HORZ JUSTIFIED, HORZ CENTER ACROSS SEL, HORZ DISTRIBUTED 
alignment.horz = xlwt.Alignment.HORZ CENTER 

# 设置 垂直 方向 

# VERT TOP, VERT CENTER, VERT_BOTTOM, VERT_JUSTIFIED, VERT_ 


DISTRIBUTED 


alignment.vert = xlwt.Alignment.VERT CENTER 

# 定义 格式 对 象 

style = xlwt.XFStyle() 

style.alignment - alignment 

+ 合并 单元 格 write_merge ( 开始 行 ， 结 束 行 ， 开 始 列 ， 结 束 列 ， 内 容 ， 格 式 ) 
ws .write merge(0, 0, 0, 5, "Python RAER ', style) 


# 写 入 数据 wb.write( 47, I, AÈ) 
for i in range(2, 7): 
for k in range (5): 
ws.write(i, k, i+k) 
# Excel AX xlwt.Formula 
ws.write(i, 5, xlwt.Formula('SUM(A'-*str(i*1)-*':E'*str 


(nnper) 


y=1) 


# 插入 图 片 ， insert bitmap(img, x, y, xl, yl, scale x-0.8, scale. 


图 片 格式 必须 为 bmp 

x 表示 行 数 ，y 表示 列 数 

x1 表示 相对 原来 位 置 向 下 偏 移 的 像素 

y1 表示 相对 原来 位 置 向 右 偏 移 的 像素 

Scale x. scale y 缩放 比例 

ws.insert bitmap('E:\\test.bmp', 9, 1, 2, 2, scale x=0.3, scale_ 


+ o db Gk + 


y-0.3) 
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* 保存 文件 


wb.save('file.xls') 


代码 依次 实现 的 功能 如 下 。 

e 设置 字体 水 平 垂直 居中 : 该 功能 实现 共 分 为 两 步 ， 第 一 步 是 定义 xlwt. 
Alignment) 对 象 ， 分 别 设置 其 水 平方 向 和 垂直 方向 的 属性 ; 第 二 步 是 定义 
xlwt.XFStyle() 对 象 ， 将 设置 好 的 Alignment) 对 象 赋予 XFStyle 对 象 。 在 写 
入 数据 的 时 候 ，XFStyle() 对 象 作为 write merge() 方法 的 参数 。 

e 合并 单元 格 :主要 由 write merge( 开 始 行 ,结束 行 ,开始 列 ,结束 列 , 内 容 , 格 式 ) 

e 生成 表格 并 计算 每 行 总 和 : 通过 嵌 套 循环 生成 5 行 6 列 的 表格 ， 第 1 到 第 5 
列 的 数据 写 入 由 write) 方法 实现 ; 第 6 列 数据 是 累计 求 和 ， 由 Excel 自 带 公 
式 实 现 。 


e 插入 图 片 : 图 片 插入 是 由 insert_bitmap(img, x, y, xl, yl, scale x-0.8, scale y-1) 
实现 的 ， 图 片 格式 必须 为 bmp， 否 则 无 法 插入 并 提示 错误 。 
把 数据 写 入 Excel 的 整体 思路 如 下 : 
CD xlwt 创建 生成 临时 Excel 对 象 。 
(2) 添加 WorkSheets 对 象 。 
G) 单元 格 的 位 置 由 行列 索引 决定 ， 索 引 从 0 开始 。 
(4) 数据 写 入 主要 由 write merge) 和 write) 实现 ， 两 者 分 别 是 合并 单元 格 再 写 


入 和 单元 格 写 入 。 
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(5) 设置 数据 格式 是 在 写 入 〈write_merge0 和 write0) 的 数据 中 传 入 参数 style。 


运行 程序 ， 结 果 如 图 9-1 所 示 。 
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9-1 在 Excel 中 写 入 数据 











除 此 之 外 ，xlwt 还 可 以 设置 单元 格 背景 颜色 、 添 加 单元 格 边框 、 设 置 单元 格 高 宽 
度 、 设 置 字体 颜色 和 数据 类 型 等 ， 由 于 篇 幅 较 大 ， 本 书 就 不 一 一 讲解 了 。 

接着 读 取 Excel 数据 ， 由 xlrd 模块 实现 ， 我 们 以 上 述 已 生成 的 Excel 为 读 取 目标 ， 
代码 如 下 : 


import xlrd 

wb = xlrd.open workbook('file.xls') 
# 获取 Sheets 总 数 

ws count = wb.nsheets 
print('Sheets BÉ, ws count) 
# 通过 索引 顺序 获取 Sheets 

# ws = wb.sheets() [0] 

# ws = wb.sheet by index(0) 

# 通过 Sheets 名 获取 Sheets 

ws = wb.sheet by name('Python') 
+ 获取 整 行 的 值 〈 以 列表 返回 内 容 ) 

row value = ws.row Values (3) 
print (' 第 4 行 数据 : ', row value) 
# 获取 整 列 的 值 〈 以 列表 返回 内 容 ) 


row col = ws.col values (3) 
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print ('D 列 数据 : ', row col) 


# 获得 所 有 行列 

nrows = ws.nrows 

ncols - ws.ncols 

print(' 总 行 数 : ', nrows, '. AJ ', ncols) 


# 获取 某 个 单元 格 内容 cell(fr, Bb) 
cell F3 = ws.cell(2, 5).value 
print('F3 M: ', cell F3) 


# 使 用 行列 索引 获取 某 个 单元 格 内 容 
row F3 = ws.row(2)[5].value 
col F3 - ws.col(5)[2].value 
print('F3 内 容 : ', row F3, 'F3 内 容 : ', col F3) 


运行 程序 ， 结 果 如 图 9-2 所 示 。 





SheetsiXl: 1 

TE: [3.0, 4.0, 5.0, 6.0, 7.0, 25.0] 
D 列 数据 : C, 7', 5.0, 6.0, 7.0, 8.0, 9.0] 
总 行 数 : 7 ， 总 列 数 : 6 

F3 内 容 : 20.0 

F3 内 容 : 20.0 RA: 20.0 











9-2 从 Excel 中 读 取 数 据 





读 取 Excel 的 数据 思路 大 致 如 下 : 


(1) xlrd 生成 Workbook 对 象 ， 并 指向 Excel 文件 。 

(2) 选择 Workbook 里 某 个 WorkSheets 对 象 。 

(3) 获取 WorkSheets 里 数据 已 占用 的 总 行 数 和 总 列 数 〈 某 个 单元 格 数据 ) 。 
(4) 循环 总 行 数 和 总 列 数 ， 读 取 每 一 个 单元 格 的 数据 。 
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9.3 Word 数据 写 入 和 读 取 


将 数据 存储 在 Word 文档 中 ， 一 般 以 文章 、 新 闻 报道 和 小 说 这 类 文字 内 容 较 长 的 
数据 为 主 。 
Python 读 写 Word 需要 第 三 方 库 扩展 支持 ， 使 用 pip 安装 : 


pip install python-docx 
模块 安装 后 ， 验 证 模块 是 否 安装 成 功 ， 在 Python 交互 式 命令 行 输入 验证 代码 : 


>>> import docx 
>>> docx. version . 
"0.8.6" 


下 面 通过 例子 来 讲述 如 何 将 数据 写 入 Word 文档 ， 代 码 如 下 : 


# 数据 写 入 

from docx import Document 

from docx.shared import Inches 

* 创建 对 象 

document = Document () 

# 添加 标题 ， 其 中 “0” 代 表 标 题 类 型 ， 共 有 4 种 类 型 ， 具 体 可 在 Word 的 “开始 ”一 “ 样 
式 ” 中 查看 

document.add heading('Python MER ', 0) 


# 添加 正文 内 容 并 设置 部 分 内 容 格式 

p = document.add paragraph('Python RFR -') 
# 设置 内 容 加 粗 

p.runs[0].bold = True 

# 添加 内 容 并 加 粗 

p.add run(' 数据 存储 -').bold = True 

# 添加 内 容 

p.add run('Word-') 

# 添加 内 容 并 设置 字体 斜体 

p.add run(* 存储 实例 。 ').italic = True 
+ 添加 正文 ， 设 置 “ 样 式 ” 一 “明显 引用 ” 


document.add paragraph (' 样式 '-' 明显 引用 '，style='IntenseQuote') 
+ 添加 正文 ， 设 置 “ 项 目 符号 ” 
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document.add paragraph( 
' 项 目 符号 1'， style-'ListBullet' 
) 
document.add paragraph( 
' JaHfP 9 2', style-'ListNumber' 
) 
+ 添加 图 片 
document.add picture('test.png', width-Inches(1.25)) 
# 添加 表格 
table = document.add table(rows-1, cols-3) 
hdr cells - table.rows[0].cells 
hdr cells[0].text = "Qty" 
hdr cells[1].text = 'Id' 
hdr cells[2].text = 'Desc' 
for item in range (2): 
row cells = table.add row().cells 


row cells[0].text - 'a' 
row cells[1].text = 'b' 
row cells[2].text - 'c' 


* 保存 文件 
document.add page break() 
document.save('test.docx') 


在 Word 中 写 入 数据 的 整体 思路 如 下 : 


(1) 创建 生成 临时 Word 对 象 。 

(2) 分 别 使 用 add_paragraphO fil add. headingO 对 Word 对 象 添加 标题 和 正文 内 容 。 

G) 如 果 想 设置 正文 内 容 的 字体 加 粗 和 斜体 等 ， 可 以 将 正文 内 容 p 对 象 的 属性 
runs[0].bold 和 add run("XX?).italic 设置 为 True。 

(4) 如 果 要 插入 图 片 和 添加 表格 ， 可 以 在 Word 对 象 中 使 用 方法 add. picture() 和 
add table(). 

C5) 完成 数据 写 入 ， 需 要 将 Word 对 象 保存 成 Word 文件 。 


读 取 Word 数 据 比 写 入 数据 相对 简单 , 因为 不 用 设置 内 容 格式 , 直接 获取 数据 即 可 。 
实现 代码 如 下 : 
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# 数据 读 取 
import docx 
def readDocx (docName) : 
fullText - [] 
doc = docx.Document (docName) 
+ 读 取 全 部 内 容 
paras = doc.paragraphs 
# 将 每 行 数据 存 入 列表 
for p in paras: 
fullText.append (p.text) 
# 将 列表 数据 转换 成 字符 串 
return 'Mn'.join(fullText) 
print (readDocx ('test.docx')) 


在 Word 中 读 取 数据 的 整体 思路 如 下 : 


(1) 生成 Word 对 象 ， 并 指向 Word 文件 。 

(2) 使 用 paragraphsO 获取 Word 对 象 全 部 内 容 。 

(3) 循环 paragraphs 对 象 ， 获 取 每 行 数据 并 写 入 列表 。 

(4) 将 列表 转换 为 字符 串 ， 每 个 列表 元 素 使 用 换行 符 连接 ， 转 换 后 数据 的 段落 
布局 与 Word 文档 相似 。 





9.4 本 章 小 结 


写 入 和 读 取 CSV. Excel 和 Word 中 的 数据 是 编写 爬虫 程序 的 重要 内 容 ， 存 入 
CSV, Excel 和 Word 中 的 数据 一 般 具 体 动态 变化 性 质 ， 有 一 定 的 时 效 性 ， 适 用 于 股 
市 行情 、 商 品 信息 、 新 闻 报 道 和 排行 榜 信息 等 。 本 章 主 要 讲解 了 CSV, Excel 和 Word 
中 数据 的 写 入 和 读 取 方法 ， 要 点 如 下 : 


CSV 写 入 数据 的 整体 思路 : 


(1) open 函数 打开 CSV 文件 ， 模 式 为 w( 一 般 设置 newline=") ， 生 成 fle 对 象 。 
(2) CSV 模块 的 writer0 方法 加 载 对 象 file. 
(3) 使 用 writerow() CwriterowsQ) 写 入 一 行 (多 行 ) 数据 。 
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CSV 读 取 数 据 的 整体 思路 : 


(ID open 函数 打开 CSV 文件 ， 模 式 为 r， 生 成 fle 对 象 。 
(2) CSV 模块 的 reader 方法 加 载 对 象 fle。 
(3) 使 用 reader (DictReader) 读 取 数据 。 


(4) reader 和 DictReader 区 别 : 两 者 是 接收 一 个 可 和 代 的 对 象 , 返回 一 个 生成 器 ， 
reader 函数 是 将 一 行 数据 以 列表 形式 返回 ，DictReader 函数 返回 的 是 一 个 字典 ， 字 典 
的 值 是 单元 格 的 值 ， 而 字典 的 键 则 是 这 个 单元 格 的 标题 〈 即 列 头 ) 


Excel 写 入 数据 的 整体 思路 : 


CD xlwt 创建 生成 临时 Excel 对 象 。 
(2) 添加 WorkSheets 对 象 。 
(30 单元 格 的 位 置 由 行列 索引 决定 ， 索 引 从 0 开始 。 


(4) 数据 写 入 主要 由 write merge) 和 write() 实现 ， 两 者 分 别 是 合并 单元 格 再 写 
入 和 单元 格 写 入 。 


C5) 设置 数据 格式 是 在 写 入 〈write_merge0 和 write0) 数据 传 入 参数 styles 


Excel 读 取 数 据 的 整体 思路 : 


(1) xlrd 生成 Workbook 对 象 ， 并 指向 Excel 文件 。 

(2) 选择 Workbook 里 某 个 WorkSheets 对 象 。 

(3) 获取 WorkSheets 里 数据 已 占用 的 总 行 数 和 总 列 数 〈 某 个 单元 格 数据 ) 。 
(4) 循环 总 行 数 和 总 列 数 ， 读 取 每 一 个 单元 格 的 数据 。 


Word 写 入 数据 的 整体 思路 : 


(1) 创建 生成 临时 Word 对 象 并 使 用 以 下 方法 添加 内 容 : 
(2) add headingO 添加 标题 。 

(3) add paragraph() 添加 正文 内 容 。 

(4) add picture) 插入 图 片 。 
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C5) add table) 添加 表格 。 


Word 读 取 数 据 的 整体 思路 : 


(1) 生成 Word 对 象 ， 并 指向 Word 文件 。 

(2) paragraphs() 获取 Word 对 象 全 部 内 容 。 

(3) 循环 paragraphs 对 象 ， 获 取 每 行 数据 并 写 入 列表 。 

(A) 将 列表 转换 为 字符 串 ， 每 个 列表 元 素 使 用 换行 符 连 接 ， 转 换 后 数据 的 段落 
布局 与 Word 文档 相似 。 
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关系 数据 库 有 MySQL. Oracle. SQL Server. SQLite 和 PostgreSQL， 操 作 数 据 库 
大 致 分 为 以 下 两 种 方式 : 


(1) 直接 使 用 数据 库 接 口 连接 。 在 Python 的 关系 数据 库 连 接 模块 中 ， 分 别 有 
pymysql, cx_Oracle, pymssql, sqlite3 和 psycopg2。 通 常 ， 这 类 数据 库 的 操作 步骤 都 
是 连接 数据 库 、 执 行 SQL 语句 、 提 交 事 务 、 关 闭 数据 库 连 接 。 每 次 操作 都 需要 Open/ 
Close Connection， 如 此 频繁 的 操作 对 于 整个 系统 无 疑 就 成 了 一 种 浪费 。 对 于 一 个 企业 
级 的 开发 来 说 ， 这 无 疑 是 不 科学 的 开发 方式 。 

(2) 通过 ORM 框架 来 操作 数据 库 。 对 象 - 关系 映射 CObject/Relation Mapping; 
ORM) 是 随 着 面向 对 象 软 件 开发 方法 的 发 展 而 产生 的 。 面 向 对 象 的 开发 方法 是 当今 企 
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业 级 应 用 开发 环境 中 的 主流 开发 方法 ， 关 系数 据 库 是 企业 级 应 用 环境 中 永久 存放 数据 
的 主流 数据 存储 系统 。 对 象 和 关系 数据 是 业务 实体 的 两 种 表现 形式 ， 业 务实 体 在 内 存 
中 表现 为 对 象 ， 在 数据 库 中 表现 为 关系 数据 。 内 存 中 的 对 象 之 间 存 在 关联 和 继承 关系 ， 
而 在 数据 库 中 ， 关 系数 据 无 法 直接 表达 多 对 多 关联 和 继承 关系 。 因 此 ， 对 象 - 关系 映 
射 系 统一 般 以 中 间 件 的 形式 存在 ， 主 要 实现 程序 对 象 到 关系 数据 库 数据 的 映射 。 

在 实际 工作 中 ， 企 业 级 开发 都 是 使 用 ORM 框架 来 实现 数据 库 持久 化 操作 
的 ， 所 以 作为 一 个 开发 人 员 ， 很 有 必要 学 习 ORM 框架 ， 常 用 的 ORM 框架 模块 有 
SQLObject, Stom, Django 的 ORM, peewee 和 SQLAlchemy. 

本 节 主 要 讲述 Python 的 ORM 框架 一 一 SQLAlchemy。SQLAlchemy Æ Python 编 
程 语言 下 的 一 款 开 源 软件 ， 提 供 SQL 工具 包 及 对 象 关 系 映射 工具 ， 使 用 MIT 许可 证 
发 行 。 

SQLAlchemy 采用 简单 的 Python 语言 ， 为 高 效 和 高 性 能 的 数据 库 访 问 设计 ， 实 现 
了 完整 的 企业 级 持久 模型 。SQLAlchemy 的 理念 是 ，SQL 数据 库 的 量 级 和 性 能 重要 于 
对 象 集合 ， 而 对 象 集合 的 抽象 又 重要 于 表 和 行 。 因 此 ，SQLAlchmey 采用 类 似 Java 里 
Hibernate 的 数据 映射 模型 ， 而 不 是 其 他 ORM 框架 采用 的 Active Record 模型 。 不 过 ， 
Elixir 和 declarative 等 可 选 插件 可 以 让 用 户 使 用 声明 语法 。 

SQLAlchemy 首次 发 行 于 2006 年 2 月， 是 Python 社区 中 被 广泛 使 用 的 ORM 工 
具 之 一 ， 不 亚 于 Django 的 ORM 框架 。 

SQLAlchemy 在 构建 于 WSGI 规范 的 下 一 代 Python Web 框架 中 得 到 了 广泛 应 
用 ， 是 由 Mike Bayer 及 其 开发 团队 开发 的 一 个 单独 的 项 目 。 使 用 SQLAlchemy 等 独 
立 ORM 的 一 个 优势 就 是 允许 开发 人 员 首 先 考 虑 数据 模型 ， 并 能 决定 稍 后 可 视 化 数据 
的 方式 (采用 命令 行 工具 、Web 框架 还 是 GUI 框架 ) 。 这 与 先决 定 使 用 Web 框架 或 
GUI 框架 ， 再 决定 如 何在 框架 允许 的 范围 内 使 用 数据 模型 的 开发 方法 极为 不 同 。 

SQLAlchemy 的 一 个 目标 是 提供 能 兼容 众多 数据 库 (如 SQLite, MySQL, 
Postgres, Oracle, MS-SQL, SQLServer 和 Firebird) 的 企业 级 持久 性 模型 。 


10.2 安装 SQLAIchemy 





安装 SQLAlchemy 时 ， 建 议 直接 使 用 pip 安装 。 
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pip install SQLAlchemy 
除了 通过 pip 安装 外 ， 也 可 以 在 www.lfd.uci.edu/~gohlke/pythonlibs/#sqlalchemy 


下 载 SOLAlchemy 版 本 的 whl 文件 ，whl 文件 可 使 用 pip 安装 ， 在 CMD (E39) 中 切 
换 到 whl 文件 所 在 路 径 ， 输 入 安装 指令 : 























pip install SQLAlchemy-1.1.14-cp35-cp35m-win amd64.whl 

使 用 SQLAlchemy 连接 数据 库 实质 上 还 是 通过 数据 库 接口 实现 连接 ， 安 装 
SQLAlchemy 后 还 需要 安装 对 应 数据 库 的 接口 模块 ， 下 面 以 MySQL 为 例 安装 pymysql 
模块 : 












































pip install pymysql 
完成 安装 后 ， 打 开 CMD 窗口 ， 通 过 导入 模块 测试 是 否 安装 成 功 : 


>>> import sqlalchemy 

>>> sqlalchemy. version __ 
be T12' 

>>> import pymysql 

>>> pymysql. version . 
'0.7.11.None' 


10.3 连接 数据 库 


在 使 用 SQLAlchemy 











连接 数据 库 之 前 ， 先 简单 MySQL 
介绍 一 下 数据 库 系 统 环 Notifier 1.1 
境 ， 数 据 库 系统 版 本 信息 MySQL Notifier 1.12 


MySQL Installer 1. 








如 图 10-1 所 示 。 














图 10-1 MySQL 信息 
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使 用 的 数据 库 是 本 地 数据 库 ， 端 口 是 默 认 端口 3306， 是 通过 MySQL 工作 人 台 创建 
并 命名 为 test 的 数据 库 ， 如 图 10-2 所 示 。 

















4f — Localinstence MySQL57 x 
Hile Edit View Query Database Server Tools Scripting Help 


ADG SAAE v- 








SCHEMAS re "- BIF ZACDOG 
| 1 





P Stored Procedures 
E Functions 











图 10-2 数据 库 信 息 


SQLAlchemy 连接 数据 库 使 用 数据 库 连 接 池 技术 ， 原 理 是 在 系统 初始 化 的 时 候 ， 
将 数据 库 连 接 作 为 对 象 存储 在 内 存 中 ， 当 用 户 需要 访问 数据 库 时 ， 并 非 建立 一 个 新 的 
连接 ， 而 是 从 连接 池 中 取出 一 个 已 建立 的 空闲 连接 对 象 。 使 用 完毕 后 ， 用 户 也 并 非 将 
连接 关闭 ， 而 是 将 连接 放 回 连接 池 中 ， 以 供 下 一 个 请 求 访问 使 用 。 而 连接 的 建立 、 断 
开 都 由 连接 池 自 身 来 管理 。 同 时 ， 还 可 以 通过 设置 连接 池 的 参数 来 控制 连接 池 中 的 初 
始 连接 数 、 连 接 的 上 下 限 数 以 及 每 个 连接 的 最 大 使 用 次 数 、 最 大 空闲 时 间 等 。 也 可 以 
通过 其 自身 的 管理 机 制 来 监视 数据 库 连 接 的 数量 、 使 用 情况 等 。 

通过 了 解 SQLAlchemy 的 原理 有 利于 理解 SQLAlchemy 连接 数据 库 的 代码 ， 代 码 
如 下 : 














from sqlalchemy import create engine 
engine-create engine ("mysql*pymysql://root:110810calhost:3306/ 
test?charset-utf8",echo-True) 


导入 SQLAlchemy 的 create engine 模块 ， 设 置 数据 库 指令 和 参数 后 可 实现 连接 ， 
上 述 代 码 是 常用 的 连接 方式 。create_engine 的 参数 设置 说 明 如 下 。 




















e mysqltpymysql://root:110@localhost:3306/test: mysql 指明 数据 库 系 统 类 型 ， 
pymysql 是 连接 数据 库 接 口 的 模块 ，root 是 数据 库 系 统 用 户 名 ，110 是 数据 库 系 
统 密码 ，localhost:3306 是 本 地 的 数据 库 系 统 和 数据 库 端 口 ，test 是 数据 库 名 称 。 
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e  echo-True: 用 于 显示 SQLAlchemy 在 操作 数据 库 时 所 执行 的 SQL 语句 情况 ， 
相当 于 一 个 监视 器 ,可 以 清楚 知道 执行 情况 ， 如 果 设 置 为 False, 就 可 以 关闭 。 

* pool size: 设置 连接 数 ， 默 认 设置 5 个 连接 数 ， 连 接 数 可 以 根据 实际 情况 进行 
调整 ， 在 一 般 的 爬虫 开发 中 ， 使 用 默认 值 已 足够 。 

e max overflow: 默认 连接 数 为 10。 当 超出 最 大 连接 数 后 ， 如 果 超 出 的 连接 数 
在 max_overflow 设 置 的 访问 内 , 超出 的 部 分 还 可 以 继续 连接 访问 , 在 使 用 过 后 ， 
这 部 分 连接 不 放 在 pool (连接 池 ) 中 ， 而 是 被 真正 关闭 。 

* pool recycle: 连接 重 置 周期 ， 默 认为 -1, 推荐 设置 为 7200, 即 如 果 连 接 已 空闲 
7200 秒 ， 就 自动 重新 获取 , 以 防止 connection 被 关闭 。 

* pool timeout; 连接 超时 时 间 ， 默 认为 30 秒 ， 超 过 时 间 的 连接 都 会 连接 失败 。 

*  ?charset-utfS: 对 数据 库 进行 编码 设置 ， 能 对 数据 库 进行 中 文 读 写 ， 如 果 不 
设置 ， 在 进行 数据 添加 、 修 改 和 更 新 等 时 ， 就 会 提示 编码 错误 。 


完整 的 连接 数据 库 代 码 如 下 : 
from sqlalchemy import create engine 


engine-create engine ("mysql*tpymysql://root:110810calhost:3306/ 
test",echo-True,pool size-5, 


max overflow-4, pool recycle-7200, pool timeout-30) 
上 述 代码 只 是 给 出 连接 MySQL 的 语句 ， 其 他 数据 的 连接 如 表 10-1 所 示 。 


表 10-1 主流 数据 库 连接 方式 


数据 库 连接 字符 串 
Microsoft SQL Server mssql+pymssql://username:password@ip:port/dbname 








MySQL mysql+pymysql://username:password(@ip:port/dbname 





Oracle cx Oracle:;//username:password(Zip:port/dbname 





PostgreSQL postgresql://username:password(dip:port/dbname 
SQLite sqlite:/file path 











104 创建 数据 表 


完成 数据 库 的 连接 后 ， 可 以 通过 SQLAlchemy 对 数据 表 进行 创建 和 删除 ， 由 图 
10-2 可 知 ，test 数据 库 是 没有 数据 表 的 ， 使 用 SQLAlchemy 创建 数据 表 ， 代 码 如 下 : 
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from sqlalchemy.ext.declarative import declarative base 
from sqlalchemy import Column, Integer, String, DateTime 


Base = declarative base() 


class mytable (Base): 
ORA 
. tablename = 'mytable' 
* 字段 ， 属 性 
id = Column(Integer, primary key-True) 
name - Column(String(50), unique-True) 
age = Column (Integer) 
birth = Column (DateTime) 
class name = Column (String (50) ) 


# 创建 数据 表 


Base.metadata.create all(engine) 


引入 declarative base 模块 ， 生 成 其 对 象 Base， 再 创建 一 个 类 mytable。 一 般 情况 
下 ， 数 据 表 名 和 类 名 是 一 致 的 ，_tablename “用 于 定义 数据 表 的 名 称 ， 可 忽略 ， 忽 
略 时 默认 类 名 为 数据 表 名 。 然 后 创建 字段 id、name、age、birth、class_name。 最 后 使 
用 Base.metadata.create_all(engine) 在 数据 库 中 创建 对 应 的 数据 表 。 


上 述 是 比较 常见 的 创建 数据 表 的 方法 之 一 ， 还 有 一 种 创建 方法 类 似 SQL 语句 的 
创建 方法 : 


from sqlalchemy import Column, MetaData, ForeignKey, Table 

from sqlalchemy.dialects.mysql import (INTEGER, CHAR) 

meta - MetaData() 

myclass = Table('myclass', meta, 
Column('id', INTEGER, primary key-True), 
Column('name', CHAR(50), ForeignKey (mytable.name)), 
Column('class name', CHAR(50)) 
) 

+ 创建 数据 表 


myclass.create (bind-engine) 


此 创建 方法 与 前 面 介绍 的 创建 数据 表 的 方法 大 有 不 同 ， 代 码 比 较 偏向 于 SQL 创 
建 数据 表 的 语法 ， 两 者 引入 的 模块 也 各 不 相同 ， 导 致 在 创建 数据 表 的 时 候 ， 创 建 语法 
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也 不 一 致 。 不 过 两 者 实现 的 功能 是 一 样 的 ， 读 者 可 以 根据 自己 的 爱好 进行 选择 。 一 般 
情况 下 ， 前 者 较 有 优势 ， 在 数据 表 已 经 存在 的 情况 下 ， 前 者 再 创建 数据 表 不 会 报错 ， 
后 者 就 会 提示 已 存在 数据 表 的 错误 信息 。 

车 要 删除 数据 表 ， 则 可 用 以 下 代码 : 


4 先 删除 myclass， 后 删除 mytable 
myclass.drop (bind=engine) 
Base.metadata.drop all(engine) 


在 删除 数据 表 的 时 候 ， 一 定 要 先 删除 设 有 外 键 的 数据 表 ， 也 就 是 先 删 除 myclass 
后 才能 删除 mytable， 两 者 之 间 涉 及 外 键 ， 这 是 在 数据 库 中 删除 数据 表 的 规则 。 


以 下 是 完整 的 代码 : 
* 连接 数据 库 


from sqlalchemy import create_engine 
engine = create engine( 
"mysql*pymysql://root:1990010calhost:3306/test?charset-utf8", 


echo-True) 


* 创建 数据 表 方 法 一 
from sqlalchemy import Column, Integer, String, DateTime 
from sqlalchemy.ext.declarative import declarative base 


Base - declarative base() 


class mytable (Base): 
+ 表 名 
. tablename  - 'mytable' 
# 字段 ， 属 性 
id = Column(Integer, primary key-True) 
name = Column(String(50), unique-True) 
age = Column (Integer) 
birth = Column (DateTime) 


class name = Column (String (50) ) 


Base.metadata.create all (engine) 
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+ 创建 数据 表 方法 二 


from sqlalchemy import Column, MetaData, ForeignKey, Table 

from sqlalchemy.dialects.mysql import (INTEGER, CHAR) 

meta = MetaData() 

myclass - Table('myclass', meta, 
Column('id', INTEGER, primary key-True), 
Column('name', CHAR(50), ForeignKey (mytable.name)) 
Column('class name', CHAR(50)) 
) 


myclass.create (bind-engine) 


# 删除 数据 表 
myclass.drop (bind=engine) 
Base.metadata.drop all (engine) 





ox 二 无论 数 据 表 是 否 已 经 创建 ， 在 使 用 SQLAlchemy 时 一 定 要 对 数据 

(o) Lb 

lamcn 表 的 属性 、 字 段 进 行 类 定义 。 也 就 是 说 ， 无 论 通过 什么 方式 创建 
数据 表 ， 在 使 用 SOLAlchemy 的 时 候 ， 第 一 步 是 创建 数据 库 连 接 ， 


第 二 步 是 定义 类 来 映射 数据 表 ， 类 的 属性 映射 数据 表 的 字段 。 











10.5 添加 数据 


完成 数据 表 的 创建 后 ， 下 一 步 对 数据 表 的 数据 进行 操作 。 首 先 创 建 一 个 会 话 对 象 ， 
用 于 执行 SQL 语句 ， 代 码 如 下 : 





from sqlalchemy.orm import sessionmaker 
DBSession - sessionmaker (bind-engine) 


session - DBSession() 


引入 sessionmaker 模块 ， 指 明 绑 定 已 连接 数据 库 的 engine 对 象 ， 生 成 会 话 对 象 
session， 该 对 象 用 于 数据 库 的 增 、 删 、 改 、 查 。 

一 般 来 说 ， 常 用 的 数据 库 操作 是 增 、 改 、 查 ，SQLAlchemy 对 这 类 操作 有 自身 的 
语法 支持 。 对 10.4 节 中 创建 的 数据 表 添 加 数据 ， 代 码 如 下 : 
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new data = mytable(name-'Li Lei',age-10,birth-'2017-10-01', 
class name-' 一 年 级 一 班 ') 

session.add(new data) 

session.commit() 


session.close() 


要 使 用 SQLAlchemy 添加 数据 ， 必 须 已 经 定义 mytable X] Z, mytable 是 映射 数 
据 库 里 面 的 mytable 数据 表 。 然 后 设置 类 属性 〈 字 段 ) 对 应 的 添加 值 ， 将 数据 绑 定 在 
session 会 话 中 ， 最 后 通过 session.commit() 来 提交 到 数据 中 ， 就 完成 对 数据 库 的 数据 
添加 了 。session.close() 用 于 关闭 会 话 ， 关 闭会 话 不 是 必要 规定 ， 不 过 为 了 形成 良好 的 
编码 规范 ， 最 好 添加 上 。 


























eX 注意 如 果 关 闭会 话 放 在 session.commit() 之 前 ， 这 个 添加 语句 就 是 无 效 
b O 


MÀ 的， 因为 当前 的 session 已 经 被 关闭 和 销毁 。 所 以 在 使 用 session. 
close() 时 ， 要 注意 编写 的 位 置 。 











通过 MySQL 工作 台 可 以 看 到 数据 表 中 已 成 功 添加 一 条 数据 ， 如 图 10-3 所 示 。 





& HIf£ £f & OI&O O ff | umtoloool 


1* SELECT * FROM test.mytable; 


“ EA] 
| Result Grid | 困 4M Fiter Rows: |e: á E EN 


| id name age birth dass name 
1 Lilei — 10 2017-10-0100:00:00 —Z£F£p—Wr 
my ous o umm 























10-3 SQLAlchemy 添加 数据 


10.6 更 新 数据 


目前 ， 数 据 库 中 已 经 添加 了 一 条 数据 ， 如 果 要 对 这 条 数据 进行 更 新 ， 
SQLAlchemy 提供 了 以 下 两 种 更 新 数据 的 方法 。 
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(1) 使 用 update 方法 更 新 数据 ， 代 码 如 下 : 


Session.query (mytable) .filter_by(id=1) .update({ mytable.age : 12}) 


session.commit () 


session.close() 


首先 查询 mytable X id 为 1 的 数据 ， 然 后 使 用 update 对 这 条 数据 进行 更 新 ， 
update 数据 的 格式 是 字典 类 型 ， 通 过 键 值 的 方式 对 数据 进行 更 新 ;接着 使 用 session. 


coomit() 执行 更 新 语句 ， 最 后 使 用 session.close() 关闭 当前 会 话 ， 释 放 资 源 。 


如 果 批 量 更 新 ， 就 可 以 将 filter by(id=1) 去 掉 ， 这 样 能 将 mytable 中 age 字段 的 值 
全 部 更 新 为 12。filter_by 相当 于 SQL 语句 里 面 的 where 条 件 判断 。 
使 用 赋值 方式 更 新 数据 ， 代 码 如 下 : 


get data = session.query (mytable).filter by(id-1).first() 





get data.class name = ' 三 年 级 三 班 ' 
session.commit () 


session.close() 





使 用 
新 赋值 ， 最 后 提交 到 数据 库 执行 。 这 种 方法 对 批量 更 新 不 太 友好 ， 常 用 于 和 





赋值 方式 也 是 将 数据 查询 出 来 ， 生 成 查询 对 象 ， 然 后 对 该 对 象 的 某 个 属性 重 


条 数据 的 





更 新 ， 若 要 用 这 种 方法 实现 批量 更 新 ， 则 只 能 循环 每 条 数据 进行 赋值 更 改 。 但 这 种 方 
法 对 性 能 影响 较 大 ， 批 量 更 新 使 用 update0 比较 合理 。 
运行 结果 如 图 10-4 所 示 。 





& HIf£ £f &.OI&!O O fl | unioiooow 


1 * SELECT * FROM test.mytable; 


< | 
| Restaria | EH 心 pemo[ — |ie gh Eb ER lg 








| [id name age beth dass name 
> |i ULs 12  2017-10-0100:00:00 ”三 年 级 三 班 
e Emm ums um umm 














图 10-4 SQLAlchemy 更 新 数据 


113 





玩 转 Python WEE 


10.7 查询 数据 


SQLAlchemy 对 数据 库 多 种 查询 方式 有 很 好 的 语法 支持 。 首 先 对 mytable 和 
myclass 加 入 部 分 数据 ， 以 便 更 好 地 讲解 ， 如 图 10-5 所 示 。 


mE o o a | 
&ulsf£AolBmiooNn! & Hif FAORI O | umeo tow 
TO SELECT * FROM test.mytable;myclass 


1€ þELECT * FROM test.myclass; 








 HENENENNESEEEE]EBEEBÁBENEEBE]|U - | 



































ResultGrid | 四 4. Fiter Rows: |&dt| — || Resuterid | ty Faer Rows: |a gd) Eb EH 
| [d mme dass name [d mme ape beh dass name 
1 Ulei 三 年 级 三 班 ran Ule 12 — 2017100100:00:0 ”三 年 级 三 班 
2 Hanmemel ZRH 2 Hanmemel 12 — 2017-100500:00:00 三 年 级 二 班 
~ p= 3 ut 12 2017-10-0200:00:00 ”三 年 级 一 班 
3 ui IFR mnn mc om. 








图 10-5. 数据 表 数据 内 容 
由 图 10-5 可 以 看 到 ， 两 个 数据 表 已 添加 部 分 数据 ， 查 询 某 个 数据 表 中 数据 的 代 
码 如 下 : 

# 查询 myclass 全 部 数据 


get data = session.query (myclass).all() 





for i in get data: 
print(' 我 的 名 字 是 : ' + i.name) 
print(' 我 的 班级 是 : ' + i.class name) 


session.close() 

代码 session.query(myclass) 相当 于 SQL 语句 里 面 的 select * from myclass; 而 all() 
是 将 数据 以 列表 的 形式 返回 。 

如 果 要 查询 某 一 字段 ， 如 SQL 语句 select name,class_name from myclass， 代 码 
Wr: 


get data = session.query(myclass.name, myclass.class name).all() 


for i in get data: 
print(' 我 的 名 字 是 : ' + i.name) 
print(' 我 的 班级 是 : ' + i.class name) 


session.close() 


设置 筛选 条 件 ，SQLAlchemy 有 两 种 筛选 方法 ， 代 码 如 下 : 
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# 根据 条 件 查询 某 条 数据 
+ 筛选 方法 一 : 
# get data = session.query (myclass) .filter (myclass.id--1).all() 
+ 第 选 方法 二 : 
get data = session.query (myclass) .filter by(id-1).all() 
print(' 数据 类 型 是 ，' + str(type(get data))) 
for i in get data: 
print(' 我 的 名 字 是 : ' + i.name) 
print(' 我 的 班级 是 : ' + i.class name) 


代码 分 别 有 两 个 get data 对 象 ， 两 者 的 区 别 在 于 filter 和 filter by. 
(1) 字段 写法 : filter 筛选 的 字段 是 带 类 名 《〈 表 名 ) 的 ， 而 filter by 只 需 筛选 字段 


即 可 。 


(2) 判断 条 件 : filter 比 filter by 多 出 一 个 等 号 。 
(3) 作用 范围 : filter 可 以 用 于 单 表 或 者 多 表 查 询 , M filter by 只 能 用 于 单 表 查 询 。 


allQ 方法 是 将 查询 数据 以 列表 的 形式 返回 ， 但 只 查询 一 条 数据 的 时 候 ， 可 以 用 


first( 返回 第 一 条 数据 。 代 码 如 下 : 


get data = session.query (myclass).filter by (id=1) .first () 
print(' 数据 类 型 是 : ' + str(type(get data))) 

print(' 我 的 名 字 是 : ' + get data.name) 

print(' 我 的 班级 是 : ' + get data.class name) 


实现 多 条 件 筛选 ， 如 SQL 的 select * from mytable where id-1 and class name-' 三 


年 级 二 班 '， 实 现 方 法 如 下 : 


get data = session.query (mytable) .filter (mytable.id >= 2, 
mytable.class name == ' 三 年 级 二 班 ') .first () 

print(' 数据 类 型 是 : ' + str(type(get data))) 

print(' 我 的 名 字 是 : ' + get data.name) 

print(' 我 的 班级 是 : ' + get data.class name) 


多 条 件 查询 只 需要 在 查询 条 件 中 添加 多 个 查询 内 容 即 可 ， 每 个 查询 内 容 以 英文 逗 


号 隔 开 。 如 果 将 SQL 语句 的 多 条 件 查询 “and” 改 成 “or”，SQLAlchemy 代码 如 下 : 
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from sqlalchemy import or 
session.query (mytable).filter(or (mytable.id »- 2, mytable.class 
name == ' 三 年 级 二 班 ')) .all() 


如 果 涉 及 多 表 查 询 的 内 连接 查询 和 外 连接 查询 ， 实 现代 码 如 下 : 


# 内 连接 
get data = session.query (mytable) .join (myclass) .filter (mytable. 
class name == ' 三 年 级 二 班 ') .all () 


print(' 数据 类 型 是 : ' + str(type(get data))) 
for i in get data: 
print(' 我 的 名 字 是 : ' + i.name) 
print(' 我 的 班级 是 : ' + i.class name) 
# 外 连接 
get data = session.query (mytable).outerjoin( 
myclass).filter(mytable.class name--' 三 年 级 二 班 ') .all () 


代码 中 的 join 和 outerjoin 与 SQL 语句 中 的 INNER JOIN fll FULL OUTER JOIN 
意思 一 致 ， 两 者 之 间 在 实现 功能 和 性 能 上 存在 明显 的 差别 。 


一 般 来 说 ， 如 果 涉 及 复杂 的 查询 语句 ， 特 别 涉及 多 表 查 询 和 复杂 的 查询 条 件 时 ， 
SQLAlchemy 还 可 以 直接 执行 SQL 语句 ， 代 码 如 下 : 


Sql = 'select * from mytable ' 
session.execute (sql) 
# 如 果 涉 及 更 新 、 添 加 数据 ， 就 需要 session.commit() 


session.commit () 





10.8 本 章 小 结 


本 章 主 要 介绍 了 ORM 框架 的 SQLAlchemy 的 功能 和 使 用 ，SQLAlchemy 的 理念 
是 SQL 数据 库 的 量 级 和 性 能 重要 于 对 象 集合 ， 而 对 象 集合 的 抽象 又 重要 于 表 和 行 。 


SQLAlchemy 操作 数据 库 的 流程 如 下 。 


日 “连接 数据 库 : 使 用 create engine() 实现 连接 ， 需 了 解 create_engine() 各 个 参数 
的 作用 。 
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创建 数据 表 : 定义 实体 类 映射 数据 表 结 构 ， 通 过 操作 类 属性 从 而 操作 数据 表 
字段 。 

创建 持久 化 对 象 : 引入 sessionmaker 模块 ， 绑 定 已 连接 数据 库 的 engine 对 象 ， 
生成 会 话 对 象 session 。 

添加 数据 : 对 实体 类 的 属性 赋值 ， 通 过 sessionadd() 方法 添加 数据 ， 通 过 
session.commit() 提交 到 数据 库 。 

使 用 更 新 数据 : 先 查询 需要 修改 的 数据 对 象 再 更 新 。 更 新 方法 有 修改 对 象 属 
性 值 和 使 用 update() 方法 更 新 数据 。 

查询 数据 : 掌握 SQLAlchemy 查询 语句 ， 区 分 filter by fe filter 的 差异 ， 理 解 
多 条 件 查询 和 多 表 查 询 。 

执行 SQL 语句 : SQLAlchemy 使 用 execute) 方法 执行 SQL 语句 。 
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11.1 MongoDB 介绍 





MongoDB 是 一 种 基于 分 布 式 文件 存储 的 数据 库 ， 由 C++ 语言 编写 ， 旨 在 为 Web 
应 用 提供 可 扩展 的 高 性 能 数据 存储 解决 方案 。MongoDB 是 介 于 关系 数据 库 和 非 关 
系数 据 库 之 间 的 产品 ， 是 非 关 系数 据 库 中 功能 最 丰富 、 最 像 关 系数 据 库 的 数据 库 。 


MongoDB 支持 的 数据 结构 非常 松散 ， 类 似 于 JSON 的 BSON 格式 ， 


因此 可 以 存储 比 





较 复 杂 的 数据 类 型 。MongoDB 最 大 的 特点 是 支持 的 查询 语言 非常 强大 ， 其 语法 有 点 
类 似 面 向 对 象 的 查询 语言 ， 几 乎 可 以 实现 类 似 关 系数 据 库 单 表 查询 的 绝 大 部 分 功能 ， 


而 且 还 支持 对 数据 建立 索引 。 


MongoDB 的 特点 是 高 性 能 、 易 部 署 、 易 使 用 , 存储 数据 非常 方便 ,主要 功能 特性 有 : 
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COD 面向 集合 存储 、 易 存储 对 象 类 型 的 数据 。 

(2) 模式 自由 。 

(3) 支持 动态 查询 。 

(4) 支持 完全 索引 ， 包 含 内 部 对 象 。 

(5) 支持 查询 。 

(6) 支持 复制 和 故障 恢复 。 

CD) 使 用 高 效 的 二 进 制 数据 存储 ， 包 括 大 型 对 象 〈 如 视频 等 ) 。 
(8) 自动 处 理 碎 片 ， 以 支持 云 计 算 层 次 的 扩展 性 。 

(9) 支持 Ruby、Python、Java、C++、PHP、C# 等 多 种 语言 。 
(10) 文件 存储 格式 为 BSON (一 种 JSON 的 扩展 ) 。 

(11) 可 通过 网 络 访问 。 


所 谓 “ 面 向 集合 ” (Collection-Oriented) ， 意 思 是 数据 被 分 组 存储 在 数据 集中 ， 
被 称 为 一 个 集合 〈Collection) 。 每 个 集合 在 数据 库 中 都 有 一 个 唯一 的 标识 名 ， 并 且 可 
以 包含 无 限 数目 的 文档 。 集 合 的 概念 类 似 关 系 型 数据 库 RDBMS) 里 的 表 (Table) , 
不 同 的 是 MongoDB 不 需要 定义 任何 模式 (Schema) ， 具 有 闪存 高 速 缓存 算法 ， 能 够 
快速 识别 数据 库 内 大 数据 集中 的 热 数 据 ， 提 供 一 致 的 性 能 改进 。 

模式 自由 (Schema-Free) ， 意 味 着 对 于 存储 在 MongoDB 数据 库 中 的 文件 ， 不 需 
要 知道 它 的 任何 结构 定义 。 如 果 需 要 ， 完 全 可 以 把 不 同 结构 的 文件 存储 在 同一 个 数据 
库 里 。 

存储 在 集合 中 的 文档 被 存储 为 键 - 值 对 的 形式 。 键 用 于 唯一 标识 一 个 文档 ， 为 字 
符 串 类 型 ， 而 值 则 可 以 是 各 种 复杂 的 文件 类 型 。 我们 称 这 种 存储 形式 为 BSON (Binary 


Serialized Document Format) 。 


MongoDB 已 经 在 多 个 站 点 部 署 ， 其 主要 场景 如 下 : 





(1) 网 站 实时 数据 处 理 。 非 常 适合 实时 地 添加 、 更 新 与 查询 ， 并 具备 网 站 实时 
数据 存储 所 需 的 复制 及 高 度 伸缩 性 。 


(2) 缓 存 。 由 于 性 能 很 高 , 因此 适合 作为 信息 基础 设施 的 缓存 层 。 在 系统 重启 之 后 ， 
由 它 搭建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 。 
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G) 高 伸缩 性 的 场景 。 非 常 适合 由 数 十 或 数 百 台 服 务 器 组 成 的 数据 库 ， 它 的 路 
线 图 中 已 经 包含 对 MapReduce 引擎 的 内 置 支持 。 








112 安装 及 使 用 


使 用 Python 操作 MongoDB 需要 搭建 开发 环境 ， 本 节 主 要 介绍 在 Windows 下 搭 
建 Python+MongoDB 环境 配置 。 配 置 环境 需 安装 MongoDB, MongoDB 可 视 化 工具 和 
Python 操作 MongoDB 模块 。 





11.2.1 MongoDB 


MongoDB 的 安装 包 可 在 官方 网 站 下 载 社 区 版 (www.mongodb.com/download- 
center#community) ， 如 图 11-1 所 示 。 

下 载 完成 之 后 ， 直 接 打 开 安 装 包 ， 单 击 “Next” 按 钮 按 提示 完成 安装 即 可 。 完 成 
安装 后 ， 进 入 MongoDB 默认 安装 目录 (C:\Program Files\MongoDB\Server3.4) ， 在 
当前 目录 下 新 建文 件 夹 data 和 1og， 分 别 用 于 存放 数据 库 文件 和 log 日 志文 件 ， 再 创 
建 一 个 mongo.conf 配置 文件 ， 如 图 11-2 所 示 。 




















Current Stable Release (3.4.10) > Windows (C) > Program Files > MongoDB > Server > 34 
hangelog "M windows 





* bin 
J data 
* log 





Version: 





















口 GNU-AGPL-3.0 
C] mongo.cont 
Windows Server 2008 64-bit, without SSL support x64 |] MPL-2 
[] THIRD-PARTY-NOTICES 
图 11-1 MongoDB 官方 下 载 版 本 图 11-2 MongoDB 安装 目录 


打开 新 创建 的 mongo.conf， 输 入 以 下 代码 : 


# 数据 库 文件 路 径 

dbpath = C:\Program Files\MongoDB\Server\3.4\data 

# 日 志 输出 文件 路 径 

logpath = C:\Program Files\MongoDB\Server\3.4\log\mongo.log 
# 错误 日 志 采 用 追加 模式 
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logappend = true 

















* 启 上 











日 志文 件 ， 默 认 启 用 








journal = true 


+ 这 个 选项 可 以 过 滤 掉 一 些 无 用 的 日 志 信息 ， 若 需要 调试 使 
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quiet = true 


# 端口 号 ， 默 认为 27017 


port 


- 27017 











H, WREX false 


代码 中 的 数据 库 文件 路 径 为 新 建 的 data 文件 夹 路 径 〈data 文件 夹 的 路 径 没有 硬性 


规定 ， 一 般 默 认为 MongoDB 的 安装 目录 ) ， 























志文 件 路 径 为 新 建 的 log 文件 夹 路 径 。 


写 入 配置 信息 后 保存 关闭 文件 ， 然 后 打开 CMD 窗口 (终端 ， 路 径 切 换 到 图 11-2 中 
的 bin 目录， 依次 输入 以 下 命令 : 


mongod --config "配置 文件 nongo .conf 绝 对 路 径 " --install --serviceName 


"MongoDB 


net Start MongoDB 


以 上 命令 代表 将 MongoDB 数据 库 服务 器 添加 到 Windows 服务 ， 这 样 可 免 去 每 次 
手动 开启 MongoDB。 运 行 结果 如 图 11-3 所 示 。 


完成 配置 设置 后 ， 在 浏览 器 9 














出 现 如 











11-4 所 示 的 内 容 ， 则 说 明 配 置 成 功 。 


图 11-3 MongoDB 配置 信息 








€ Œ | © 1270.0.1:27017 


It looks like you are trying to access MongoDB over HTTP on the native driver port. 








11.2.2 MongoDB 可 视 化 工具 











可 视 化 工具 可 帮助 使 用 者 快速 查看 数据 库 的 使 














工具 有 RoboMongo 和 MongoBooster。 


图 11-4 MongoDB 配置 成 功 





pb 输入 http://127.0.0.1:27017/ 验证 配置 是 否 成 功 ， 若 




















情况 ，MongoDB 常 

















的 可 视 化 
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以 RoboMongo 使 用 为 例 ， 官 方 网 站 下 载 地 址 为 https://robomongo.org/download， 下 
载 后 运行 .exe 文件 ， 按 提示 可 完成 安装 。 然 后 运行 软件 ， 单 击 “MongoDB Connections” 
界面 中 的 “Create” 按 钮 ,弹出 “Connections Settings”, 输入 Name 和 Address 的 信息 : 
Name 为 对 该 连接 的 命名 ， 可 自 定义 命名 ; Address 处 分 别 输入 数据 库 IP 地 址 和 端口 。 
此 处 以 本 地 数据 库 为 例 ， 如 图 11-5 所 示 。 
































83 MongoDB Connections 


Create, edit, remove, clone or reorder connections via drag'n'drop. 





Œ Connection Settings x 
Connection Authentication SSH | SSL | Advanced 


Type: — Direct Connection 


wes [em 


Choose any connection name that will help you to identity this connection. 


Address: [oealhost | : [27017 





Specify host and port of Mongoli server. Host can be either lPv4, 1Pvb or domain name. 











11-5 RoboMongo 创建 数据 库 连 接 


连接 数据 库 后 ， 会 看 到 数据 库 有 一 Rie View Options Window Help 
^ "system" WAER, 文件 夹 里 有 “admin” 
和 “local” 数 据 库 ， 两 者 皆 属 于 系统 数据 
库 ， 如 图 11-6 所 示 。 




















Create Database 
Collections (1) Server Status 
v 国 user Host Info 
v E Indexes (1) MongoDB Version 
[ i 
> E Functions Show Log 
» Users. Disconnect 














图 11-6 MongoDB 数据 结构 








结合 图 11-6 创建 数据 库 ， 方 法 如 下 : 


€D) 右 击 “MyDB”， 单 击 “Create Database”， 将 数据 库 命名 为 “DB”。 

E 打开 数据 库 *DB”, 右 击 “Collections”, 选择 “Create Collection”, 命名 为 “user”。 
新 建 的 user 称 为 集合 ， 相 当 于 关系 数据 库 里 面 的 数据 表 。 

€D 右 击 “user”， 选 择 “Insert Document" . Document 代表 文档 内 容 ， 相 当 于 
MySQL 里 数据 表 中 的 数据 .Document 是 BSON 格式 , 类 似 JSON, 如 图 11-7 所 示 。 
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[v E MyDB 3) 





04 集合 user 里 有 文件 夹 “Indexes”， 




















11.2.3 PyMongo 


PyMongo 是 Python 操作 MongoDB 的 第 三 方 库 ， 有 庞大 


v E System 


v 7 Collections (1) 
E user 


> Functions (0) 
> E Users (0) 








Indexes (1) 
d 





图 11-7 MongoDB 添加 文档 





















































和 完善 。 建 议 使 用 pip 安装 PyMongo: 


pip install pymongo 


完成 安装 后 ， 打 开 CMD 窗口 ， 通 过 导入 模块 测试 是 否 安装 成 功 : 


>>> import pymongo 


>>> pymongo. version . 


!'3.5.1* 


41.3 连接 数据 库 


于 实现 集合 的 索引 功能 ; 文件 夹 “Functions” 
实现 脚本 功能 ， 在 “Users” 中 设 定 用 户 账号 密码 ， 用 于 设置 访问 权限 。 


的 社 区 ， 功 能 较为 稳定 











前 面 通过 可 视 化 











具 对 MongoDB 进行 了 讲解 ， 相 信 大 家 对 MongoDB 的 数据 结 





构 有 了 一 定 的 了 解 。 使 

















Python 实现 对 MongoDB 操作 的 原理 与 连接 关系 式 数据 





样 : 连接 数据 库 一 访问 数据 表 《〈 集 合 ) 一 增删 改 查 。 





库 一 
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Python 连接 MongoDB 主要 由 PyMongo 实现 ， 连 接 代码 如 下 : 


import pymongo 
* 创建 对 象 ， 连 接 本 地 数据 库 


# 方法 一 : 

client = pymongo.MongoClient () 

# 方法 二 : 

client = pymongo.MongoClient('localhost', 27017) 
EJE: 

client = MongoClient ('mongodb://localhost:27017/') 
# 连接 DB 数据 库 


db = client['DB'] 

# 连接 集合 user， 集 合 类 似 关 系数 据 库 的 数据 表 
+ 如 果 集 合 不 存在 ， 就 会 新 建 集合 user 

user collection = db.user 


# 设置 文档 格式 (文档 即 我 们 常 说 的 数据 ) 


代码 使 用 三 种 方法 创建 数据 库 〈client) 对 象 ，localhost 是 数据 库 IP 地 址 ，27017 
是 数据 库 端口 ，db = client['DB'] 指向 需要 连接 的 数据 库 ，user_collection = db.user 指 
向 user 集合 (相当 于 关系 数据 库 的 数据 表 〉。 


如 果 数 据 库 设置 了 用 户 验证 ， 在 连接 命令 上 要 添加 验证 信息 : 


import pymongo 

# 用 户 验证 方法 一 

client = pymongo.MongoClient () 

db auth = client.admin 

db auth.authenticate (username, password) 
# 连接 DB 数据 库 

db = client['DB'] 

# 用 户 验 证 方法 二 

client = MongoClient ('mongodb: / /username :password8localhost:27017/"') 
# 连接 DB 数据 库 

db = client['DB'] 


上 述 代 码 提 供 两 种 验证 方式 ， 用 户 验证 实质 上 是 在 连接 数据 库 的 时 候 ， 将 数据 库 
用 户 的 账号 、 密 码 添加 到 连接 语句 上 实现 验证 登录 。 
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11.4 添加 文档 


在 MongoDB 中 ， 常 用 的 操作 有 添加 文档 、 更 新 文档 、 删 除 文档 和 查询 文档 。 文 
档 的 数据 结构 和 JSON 基本 一 样 。 所 有 存储 在 集合 中 的 数据 都 是 BSON 格式 。BSON 
是 一 种 类 似 JSON 的 二 进 制 形式 的 存储 格式 ， 简 称 Binary JSON. 


文档 添加 方式 分 别 有 单 条 添加 和 批量 添加 ， 实 现代 码 如 下 : 


import pymongo 

import datetime 

import re 

* 创建 对 象 

client = pymongo.MongoClient () 
# 连接 DB 数据 库 

db = client['DB'] 

# 连接 集合 user， 集 合 类 似 关 系数 据 库 的 数据 表 
# 如 果 集 合 不 存在 ， 就 会 新 建 集合 user 
user collection = db.user 

# 设置 文档 格式 (文档 即 我 们 常 说 的 数据 ) 


user info = { 


" id": 100, 

"author": "/NÉ", 

"text": "Python ERF ", 

"tags": ["mongodb", "python", "pymongo"], 


"date": datetime.datetime.utcnow()] 


# 使 用 insert_one 单条 添加 文档 ，inserted_id 获取 写 入 后 的 id 

+ 添加 文档 时 ， 如 果 文 档 尚 未 包含 " id" 键 ， 就 会 自动 添加 "id"。 " id" 的 值 在 集 
合 中 必须 是 唯一 的 

# inserted id 用 于 获取 添加 后 的 id， 若 不 需要 ， 则 可 以 去 掉 

user id = user collection.insert one(user info).inserted id 


print ("user id is ", user id) 


# 批量 添加 

user infos = [( 
" id": 101, 
"author": "AA", 
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"text": "Python 爬虫 开发 "， 
"tags": ["mongodb", "python", "pymongo"], 


"date": datetime.datetime.utcnow()], 


"dg" 102, 
"author": "小 黄 AAT, 
"text": "Python fÉmJFPE aA", 
"tags": ("db":"Mongodb","lan":"Python","modle":"Pymongo"], 
"date": datetime.datetime.utcnow()], 
] 
# inserted ids 用 于 获取 添加 后 的 id， 若 不 需要 ， 则 可 以 直接 去 掉 
user id = user collection.insert many(user infos).inserted ids 
print ("user id is ", user id) 


代码 实现 了 单条 添加 和 批量 添加 ， 单 条 添加 的 数据 是 user info， 该 数据 是 一 个 
字典 数据 结构 ; 批量 添加 的 数据 是 uesr_ infos， 该 数据 是 一 个 字典 数据 组 成 的 列表 。 
执行 数据 添加 分 别 由 insert one 和 insert many 方法 实现 。 数 据 添加 完成 后 ， 使 用 
inserted id 和 inserted. ids 可 返回 添加 后 所 自动 生成 的 id 内 容 。 


115 更 新 文档 


更 新 文档 同样 分 为 单条 更 新 和 批量 更 新 ， 分 别 由 update() 和 update many0 实现 。 
文档 更 新 需要 加 入 操作 符 。 操 作 符 的 作用 : 通常 文档 只 会 有 一 部 分 要 更 新 ， 利 用 原子 的 
更 新 修改 器 可 以 使 得 这 部 分 更 新 极为 高 效 。MongoDB 提供 了 许多 原子 操作 ， 比 如 文档 
的 保存 、 修 改 、 删 除 等 。 所 谓 原子 操作 ， 就 是 要 么 将 这 个 文档 保存 到 MongoDB, #4 
没有 保存 到 MongoDB， 不 会 出 现 查 询 到 的 文档 没有 保存 完整 的 情况 。 更 新 修改 器 是 
一 种 特殊 的 键 ， 用 来 指定 复杂 的 更 新 操作 ， 比 如 调整 、 增 加 或 者 删除 键 ， 还 可 能 用 于 
操作 数组 或 者 内 媒 文 档 。 


下 面 介绍 常用 的 更 新 操作 符 。 





e Sset: 用 来 指定 一 个 键 的 值 。 如 果 这 个 键 不 存在 ， 就 创建 它 ; 如 果 存 在 ， 就 执 
行 更 新 。 
e Sunset: 从 文档 中 移 除 指定 的 键 。 
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。 Sin: 修改 器 用 来 增加 已 有 键 的 值 ， 或 者 在 键 不 存在 时 创建 一 个 键 。$inc 就 是 
专门 来 增加 (和 减少 ) 数字 的 ， 只 能 用 于 整数 、 长 整数 或 双 精 度 浮 点 数 。 要 
是 用 在 其 他 类 型 的 数据 上 ， 就 会 导致 操作 失败 。 

e  S$rename: 操作 符 可 以 重 命名 字段 名 称 ， 新 的 字段 名 称 不 能 和 文档 中 现 有 的 字 
段 名 相同 。 如 果 文 档 中 存在 A、B 字段 ， 将 B 字段 重 命名 为 A，S$rename 会 将 
A 字段 和 值 移 除 掉 ， 然 后 将 B 字段 名 改 为 A。 

e  Spush: 如 果 指 定 的 键 已 经 存在 ， 就 会 向 已 有 的 数组 末尾 加 入 一 个 元 素 ; 如 果 
指定 的 键 不 存在 ， 就 会 创建 一 个 新 的 数组 。 


如 何 使 用 操作 符 实现 更 新 文档 呢 ? 例如 更 新 上 述 已 添加 的 文档 的 代码 如 下 : 


# 更 新 单条 文档 
# update ( 筛选 条 件 ， 更 新 内 容 ) 。 筛 选 条 件 为 空 ， 默 认 更 新 第 一 条 文档 


user collection.update( 

{}, 

{"$set":{"author":" 小 黄 "， "text":"Python fmm") 

) 

# 批量 更 新 文档 ， 只 要 将 方法 update PUN update many 即 可 

在 代码 中 ，user_collection 是 11.4 节 的 集合 user 对 象 ， 方 法 update 有 两 个 参数 ， 
皆 为 字典 格式 :第 一 个 字典 为 筛选 条 件 ， 若 为 空 ， 则 默认 更 新 第 一 条 文档 ， 第 二 个 字 
典 以 操作 符 为 字典 的 键 ， 更 新 的 内 容 以 字典 格式 作为 字典 的 值 。 


11.6 查询 文档 


查询 文档 是 使 用 find0 方法 产生 一 个 查询 来 从 MongoDB 的 集合 中 查询 到 数据 。 
该 方法 与 其 他 方法 的 使 用 大 致 相同 ， 使 用 方法 如 下 : 





# 查询 文档 ,find ({" id":101]), 其 中 (" id":101) 为 查询 条 件 ， 若 查询 条 件 为 空 ， 
则 默认 查询 全 部 

find value = user collection.find((" id":101]) 

print(list(find value)) 


如 果 要 实现 多 条 件 查询 ， 就 需要 使 用 查询 操作 符 : Sand 和 Sor， 使 用 方法 如 下 : 
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# AND 条 件 查询 

find value = user collection.find(( 

"Sand":[(" id":101],("author":" 小 黄 "}] 

}) 

print (list (find value)) 

+ OR 条件 查询 

find value = user collection.find(( 
"Sor":[("author":" 小 黄 A"), ("author":" /NEE ")] 
}) 

print (list (find value)) 


方法 findQ 传递 字典 作为 查询 条 件 ， 操 作 符 Sand 和 Sor 作为 字典 的 键 ， 字 典 的 值 
是 列表 格式 的 ， 列 表 中 的 元 素 以 字典 形式 表示 ， 一 个 元 素 代表 一 个 查询 条 件 。 

如 果 要 实现 大 于 、 小 于 或 者 不 等 于 这 类 比较 查询 ， 就 需要 使 用 比较 查询 操作 符 : 
Slt (小 于 ) 、$lte〈 小 于 或 等 于 ) 、$gt CK TO 、$gte〈 大 于 或 等 于 ) 、$in Gn, 4f 
合 范围 内 ) 、$nin (not in， 范 围 之 外 )， 使 用 方法 如 下 : 


# 如 查找 id>100 而 <102， 即 id-101 的 文档 
find value = user_collection.find({ 

" Ad"':["SgE":100,"S1E^:102] 

}) 
print (list (find value)) 

# 查找 id Æ [100,101] 

find value = user collection.find(( 
" ád":["$in"i[100,101]] 

H) 
print (list (find value)) 


比较 查询 和 多 条 件 查询 存在 明显 的 差别 : 





COD 多 条 件 查 询 以 操作 符 为 字典 的 键 ， 比 较 查 询 以 字段 为 字典 的 键 。 
(2) 多 条 件 查 询 的 值 是 列表 格式 的 ， 比 较 查 询 的 值 是 字典 格式 的 。 


如 果 使 用 两 者 组 成 一 个 查询 ， 代 码 如 下 : 


find value = user collection.find(( 
"Sand": [(" id": ("$gt":100,"$1t":102), (" id": ("Sin": [100,101])] 
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print (list (find value)) 


从 代码 中 可 以 看 到 ， 多 条 件 查询 操作 符 Sand 作为 最 外 层 字典 的 键 ， 比 较 查 询 操 
作 符 位 于 最 里 层 字典 。$and 是 将 每 个 条 件 连接 起 来 ， 主 要 作用 于 每 个 查询 条 件 之 间 ; 
比较 查询 操作 符 〈$gt 和 Sind) 使 条 件 按照 某 个 规则 成 立 条 件 判断 ， 主 要 作用 于 每 个 查 


询 条 件 里 面 。 


当 查 询 条 件 不 明确 某 个 值 的 时 候 ， 可 以 使 用 模糊 匹配 进行 查询 。 在 MongoDB 中 
实现 模糊 匹配 需要 引用 正则 表达 式 ， 代 码 如 下 : 


# 模糊 查询 实际 上 是 加 入 正则 表达 式 实现 


+ 方法 一 : 

find value = user collection.find(( 
"author": ("$regex": ".*/.*") 

}) 

print (list (find value)) 

# 方 法 二 : 

regex re.compile(".* 小 .*") 


find va 


ue - user collection.find(( 


"author": regex 


}) 
print( 





ist(find value)) 


实现 模糊 匹配 有 两 种 不 同 的 方式 ， 两 者 都 需要 引用 正则 表达 式 来 完成 模糊 功能 。 


方法 一 : 


使 用 操作 符 Sregex 作为 字典 的 键 ， 告 诉 数据 库 这 个 查询 语句 要 查找 字 


段 author 中 含有 “小 ”的 内 容 。 


方法 二 : 


re.compile 定义 了 一 个 Pattem 实例 ， 这 是 正则 表达 式 对 象 ， 将 其 实例 作 


为 查询 条 件 的 值 ， 同 样 也 是 告诉 数据 库 需要 查找 字段 author 中 含有 “小 ”的 内 容 。 


我 们 知道 JSON TURELA JSON, MongoDB 的 文档 也 是 如 此 。 当 查询 文档 中 
某 个 字段 嵌 套 多 个 文档 时 ， 如 何 将 嵌 套 里 面 的 文档 作为 查询 条 件 实现 文档 查询 呢 ? 代 


码 如 下 : 


+ 查询 嵌入 / WES 
+ 查询 字段 "tags": ("db":"Mongodb", "lan":"Python", "modle":"Pymongo"} 
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# 查询 嵌 套 字段 ， 只 需要 查询 嵌 套 里 的 某 个 值 即 可 
find value = user collection.find(( 
"tags.db": "Mongodb" 

1) 

print(list(find value)) 


字段 tags 的 值 是 一 个 字典 类 型 的 数据 ， 也 就 是 说 ， 文 档 中 tags 字段 的 值 嵌 套 了 
另 一 个 文档 , 如 果 查 询 条 件 是 “db”:“Mongodb”, 而 “db” 属 于 字段 tags, 可 通过 “tags. 
db” 对 其 进行 定位 。 如 果 “db” 的 值 再 嵌 套 一 个 字典 ， 那 么 可 用 相同 的 方式 进行 下 一 
步 的 定位 ， 代 码 如 下 : 


# 查询 字段 "tags": ("db": ("Mongodb":"NoSql","MySql":"Sql"), 
"lan":"Python", "modle":"Pymongo"] 

find value - user collection.find(( 

"tags.db.Mongodb": "NoSql" 

}) 

print (list (find value)) 


11.7 本 章 小 结 


MongoDB 是 一 个 基于 分 布 式 文件 存储 的 数据 库 ， 则 在 为 Web 应 用 提供 可 扩展 的 
高 性 能 数据 存储 解决 方案 ， 是 介 于 关系 数据 库 和 非 关系 数据 库 之 间 的 产品 ， 是 非 关 系 
数据 库 中 功能 最 丰富 的 数据 库 。 在 当前 的 仆 忠 程序 中 ， 如 何 操作 MongoDB 也 成 为 息 
虫 程序 的 重要 内 容 。 


在 本 章 中 ， 读 者 要 重点 掌握 以 下 内 容 : 





(1) 熟悉 MongoDB 安装 配置 。 

(2) 理解 MongoDB 数据 结构 。 

(3) 掌握 使 用 RoboMongo 操作 MongoDB。 

(4) 添加 文档 分 为 单条 添加 和 批量 添加 ， 分 别 由 insert one) 和 insert. many 
实现 。 

(5) 更 新 文档 分 为 单条 更 新 和 批量 更 新 ， 分 别 由 update) 和 update many) 实现 ， 
并 且 掌 握 更 新 操作 符 的 使 用 。 

(6) 查询 文档 由 find) 实现 ， 掌 握 比较 查询 、 多 条 件 查询 、 模 糊 查 询 和 获 套 查询 。 
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12.1 分 析 说 明 


本 章 讲 述 使 用 Python 爬 取 淘宝 商品 信息 ， 数 据 主要 用 于 商家 分 析 市 场 趋势 ， 从 
而 制定 一 系列 营销 方案 。 实 现 的 功能 如 下 





(1) 使 用 者 提供 关键 字 ， 利 用 淘宝 搜索 功能 获取 搜索 后 的 数据 。 
(2) 获取 商品 信息 : 标题 、 价 格 、 销 量 、 店 铺 名 称 和 店铺 所 在 区 域 。 
(3) 数据 以 文件 方式 存储 。 


功能 实现 依次 体现 了 息 虫 的 开发 流程 候 取 规则 一 数据 清洗 一 数据 存储 。 整 个 候 
虫 开发 需要 以 网 站 的 分 析 作 为 支撑 点 。 
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我 们 使 





bu 




















览 
1 Crome 浏览 器 分 | RA [som] — HER | 
析 淘 宝 网 站 ， 在 Chrome 中 输入 Taobao.com 


https://www.taobao.com/ 后 按 回 车 IF SERR 
键 3 进入 淘 E3 首 页 y 利 用 搜索 功 能 (x 侣 Elements Console Sources Network Performance Memory 


搜索 某 关 键 字 ， 例 如 以 “四 件 套 ” fie 























为 关键 字 进 行 搜索 。 打 开 浏览 器 的 [2 


[DD search?q=%E5%98%9B%E4%BB%B6%E5%A5%978&imgfile=&comm... 200 


F 发 者 工具 单 击 Network 标签 [E] Pássy/k/1 4.16/seed-min js.ka/kmd-adapter/0.1.5/....1/p/index/inde.. 200 


L1 ?Zkissy/k/1.4.15/import-style-min js;tb/tracker/1.0.19/indexjs/tb/tsr.. | 200. 


如 果 没 有 捕捉 到 网 站 的 请 求 信息 ， C] efi 20 


[DD index-minjs 200 


那么 可 以 刷新 网 页 重新 捕捉 ， 如 图 口 font_1404888168 2057645 woff 200 
12-1 所 示 。 


标签 里 


一 个 网 页 的 请 求 信息 包含 多 种 请 求 类 型 ， 网 页 数据 主要 在 Doce、XHR 和 JS 分 类 
ij 找到。 在 不 确定 具体 请 求 信息 的 情况 下 ， 通 常 先 从 请 求 的 响应 内 容 查找 是 否 




















[.] ??inode-minjs.dom/base-minjs.event/dom/base-minj..anim/base-.. 200 


El 222nim/tzancit n 





€ G m w |vew = = Ø Groupby frame | B Presevelog (B Di: 
EJ Regex 回 Hide data URLs (A)| xem Js css img Med 








图 12-1 使 用 Chrome 获取 淘宝 网 页 信息 


有 我 们 需要 的 数据 ， 如 图 12-2 所 示 。 


H 








Name 


[E] blkhtmi 





从 图 12-2 中 得 知 ，Doc 标签 的 响应 内 容 大 多 数 是 一 些 JS 脚步 和 简单 
并 没有 我 们 所 需 的 数据 ， 也 就 是 说 ， 浏 览 器 访问 当前 的 URL 所 返回 





7a 
73 
74 
75 
76 


78 


31 
32 
93 
BA 
85 
86 
87 








x Headers | Preview Response Cookies Timing 


qstyle» 
<body data-spm-"i"»«script» 

with(document )wi th (body )wi th( insertBefore(createElement ("script"), firstchild))s. 
</script> 


«div id-"page" class-"srp-page"» 






iteNav" data-component-config-'( "cart": "e.0. 
SsiteNavBd"»«/div» 


«div clas: te-nav" id 
«div class-"site-nav-bd" i 
</div> 
<!--[if lt IE 8]> 
<style>html (overflow-y:hidden}</style> 
<div class-"tb-ie-updater-layer" id="3_reupdaterLayer"></div> 
«div class-"tb-ie-updater-box" data-spm-"20161112" id="J_IEUpdaterBox"> 
<a href-"https://www.google.cn/intl/zh-CN/chrome/browser/desktop/" class="tb 
<a href="http://www.uc.cn/ucbrowser/dounload/” class-"tb-ie-updater-uc" targe 
<a class-"tb-ie-updater-close" href-"4" onclick="document.getElementById("]_I 
</div> 
<I[endif]--> 








«div id-"main" class-"srp-main"» 
«div class-"srp-loading" 
style-"text-align:center; margin: 100px auto 0; height:48px; width 





«div» 





成 淘宝 商品 信息 的 。 
在 响应 的 HTML 文件 中 找 不 到 所 需 数据 ， 那 么 数据 的 生成 可 能 来 源 于 Ajax i 
后 台 ， 再 通过 前 端 泻 染 在 网 页 上 。 
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图 12-2 Doc 标签 下 的 响应 内 容 
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的 HTML, 
HTML 文件 是 不 
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fF XHR 标签 , 发 现 有 一 个 Ajax 请 求 ， 查 看 该 请 求 的 详细 信息 ， 如 图 12-3 所 示 。 





ex 图 Hide data URLs All xs] JS CSS Img Media Font Doc WS Manifest Other 


x [Headers | Preview Response Cookies Timing 








Y General 


Y Response Headers 


Request URL: https://s.taobao.com/api? ksTS-1505576426241 249&callback-jsonp250&ajax-| 


0.50862.201856-taobao-item.1&s-36&imgfile-&initiative id-tbindexz 201709168bcoffset- 
type-item 


Request Method: GET 

Status Code: ® 200 

Remote Address: 106.11.15.99:443 

Referrer Policy: no-referrer-when-downgrade 


content-encoding: gzip 
content-language: zh-CN 
content-type: application/json;charset-UTF-8 











图 12-3 Ajax 请 求 信息 


单 击 Preview 查看 该 URL 的 响应 内 容 ， 发 现 响应 的 数据 是 JSON 格式 的 ， 而 且 数 
据 内 容 是 当前 网 页 上 的 淘宝 商品 信息 ， 商 品 信息 的 标题 、 价 格 、 销 量 、 店 铺 名 称 和 店 


铺 所 在 区 
图 12-4 所 示 。 





域 分 别 对 应 数据 的 raw_title、view_price、view_sales、nick 和 item_loc， 如 





lex 国 Hide data URLs. All 








X Headers [Preview | Response Cookies Timing 


jsonp256({，-)); 
CustomizedApi: 


v itenlist: (auctions: [{,-}, {,-}, {,-}, G-),-L, trace: "auction customized", query: "Juff4s"] 
v auctions: [G-], O-b 6-b) 6-)-1 
vo: {,-} 
category: "50008779" 


comment count: "1565" 


comment url: "//item.taobao.con/item.htm?id-5401416223038ns-18abbucket-4&on comment-1" 
detail url: "//item.taobao. com/iten.htm?id-5401416223038ns-18abbucket-Atdetail" 
Pi2iTags: (samestyle: (url: 








paprags: [] 
pic urls "//g-search2.al icdn. com/ing/bao/uploaded/14/12/2874154753/T8233A oVXXXXCuXpXIQ0000000€. 12874154753. jpg" 







shopLink: "//store.taobao.com/shop/view shop.htmPuser number i. 


P shopcard: (levelClasses: [(levelClass: "icon-supple-level-zuan" 
title: "站 


GU] JS CSS Img Media Font Doc WS Manifest Other 





itemlist: (auctions: [G-), O-b {3-}, G-),-], trace: "auction customized", query: "Piftfe")) 








/search?type-sanestyle&app-i2i&rec type-i&unipid- 
“ 实 家 提供 以 下 贴心 服务 :“，dom_class: "icon-service-fuwu", position: 





4403277618nid-540141622303"),..) 
99", show type: "1",-),-] 








540141622303" 


1440327761" 
tle: “纯色 四 件 套 全 棉 1. gm 床单 被 





纯 棉 素 色 简约 1.5 米 2.em 双 人 床上 用 品 ” 





1874154753" 


{levelClass: "icon-supple-level-zuan =} 
纯色 <span class=H> 四 件 </span>cspan class-&»ftc/span» 4 ld1 -Smikkespan class-to fec/spano HR R&IA sK2 .0nXLAR EJ 











图 12-4 Ajax 请 求 响应 内 容 


从 图 12-4 得 知 ， 请 求 链接 信息 如 下 : 


https://s.taobao.com/api? ksTS-1505577563463 249&callback-jsonp80 
4&ajax-true&m-customized&stat 


133 





玩 转 Python es 
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S click-search radio all:1&qg- 四 件 套 &s-36&imgfile-&initiative id-s 
taobaoz 20170917&bcoffset-0&js-1 
&ie-utf8&rn-c78bd6f02494321908001027055161f1 


请 求 链接 的 信息 很 长 ， 某 些 请 求 参数 看 起 来 杂乱 无 章 ， 有 可 能 存在 一 些 非 必要 的 
请 求 参数 。 为 了 让 URL 进一步 简化 ， 我 们 将 URL 复制 到 Chrome 上 访问 一 次 ， 浏 览 
器 直接 返回 响应 内 容 ， 然 后 每 次 删除 一 个 参数 后 重新 访问 ， 查 看 是 否 得 到 相同 的 响应 
内 容 。 通 过 筛选 和 删 减 ， 得 到 最 后 的 URL， 如 图 12-5 所 示 。 











m 














<€ > CIO https://s.taobao.com/api?callbackzjsonp804&m-customized&q- [UE &s- 0 





jsonp804 ( ("API. CustomizedApi" : ("itemlist": auctions": [ ("i2iTags": ('samestyle": ("ur1":" /search?typ| 
1121013486 V00026nid Vu003d527314661809") , " simi lar^ : (ur1":" /search?type u003dsimi lar Wu0026app Vu003d| 
1121013486 Vu0026nid Vu003d527314661809"] ) , "p4pTags" : [], "nid": "527314661809", "category": 50008779", ^ 
\u003c/span\u003e\u003cspan class\u003dH\u003e 套 \u003c/span\u003e JEjbtE 清新 淡雅 床上 用 品 “, "raw | 
search3. alicdn. com/img/bao/uploaded/i4/i2/TBl9avZLFXXXXbt XFXXXXXXXXXX..! !07 item pic. jpg", "detail ur| 
id\u003d527314661809\u0026ns\u003d1\u0026abbucket\u003d4”, "view price":^699. 00", "view fee^:"6.00^, 
Ak "comment count":"236", "user id':"92042735', "nick": "KEMAU", " shopcard" : ("levelClasses":[("1| 
("levelClass":"icon-supple-level-jinguan") ], "isTmall":true, "delivery" : [484, 1, 1404], "description":[ 
(484, 1, 398], "encryptedUserId" : "UOFIWinIuvGST", "sellerCredit":18, total Rate 100000 "icon": [("title 
tianmao", "position" :^1^, "show type":"0^, "icon category" :baobei "outer text^ ,"html^:"^, "icon | 
J^, "ur1" :"//www. tmall. com/“}, {“title”:“ 保 险 理赔 ”, "dom class": "icon-service-i paoxian” i "position":^9 
service-baoxian". "trace": srpservice". "innerText^ : ^ 24H (RIO FEM", ^ . ; 


图 12-5. 简化 请 求 链接 
从 简化 的 URL 看 出 ， 有 两 个 参数 可 以 动态 设置 来 获取 不 同 商品 的 信息 。 























OD q= 四 件 套 : 这 是 关键 字 搜索 ， 可 以 根据 这 个 变量 获取 不 同类 型 的 商品 信息 。 

(2) s=36: 这 是 页 数 设置 ， 如 果 对 请 求 链接 的 页 数 从 0 到 36 依次 访问 ， 每 页 12 
条 信息 ， 那 么 共 432 条 商品 信息 。 再 观察 每 页 之 间 的 数据 ， 比 如 页 数 从 0 到 1，24 条 
数据 中 有 22 条 是 重复 的 。 也 就 说 ， 每 页 数据 是 去 掉 上 一 页 的 第 一 条 数据 ， 再 从 末端 
新 增 一 条 数据 。 














122 2 功能 实现 


根据 对 网 站 的 分 析 获 取 单个 关键 字 搜 索 的 单 页 商品 信息 ， 代 码 如 下 : 





import requests 


import json 
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url = 'https://s.taobao.com/api?callback-jsonp804&m- 
customized&q- 四 件 套 &s=0" 

r = requests.get (url) 

response - r.text 

+ 截取 成 标准 的 ISON 格式 

response = response.split('(')[1].split(') ') [0] 

* 读 取 JSON 

response dict = json.loads (response) 

# 定位 到 商品 信息 列表 

response auctions info = response dict['API.CustomizedApi'] 
['itemlist']['auctions'] 


由 于 Ajax 返回 的 数据 是 字符 串 格式 的 ， 在 返回 的 值 jsonp804(XXX) 中 ，XXX 部 
分 是 JSON 数据 格式 ， 因 此 先 用 字符 串 splitQ 截取 XXX 部 分 ， 然 后 将 XXX 部 分 由 字 
符 串 转换 成 JSON 格式 读 取 。 


如 果 要 获取 多 页 数据 ， 可 以 在 上 述 代码 中 加 入 一 个 循环 功能 ， 实 现代 码 如 下 : 


for p in range(88): 
url = 'https://s.taobao.com/api?callback-jsonp804&m- 
customized&q- 四 件 套 &s=%s' $ (p) 
r= requests.get (url) 
response - r.text 
response = response.split('(')[1].split(') ') [0] 
response dict - json.loads (response) 
# 商品 信息 
response auctions info = response dict['API.CustomizedApi'] 
['itemlist']['auctions'] 


上 述 代码 只 能 获取 单个 关键 字 搜 索 的 商品 信息 ， 如 果 要 实现 多 个 关键 字 功能 ， 就 
可 以 在 上 述 代码 中 再 多 加 一 个 循环 ， 代 码 如 下 : 


for k in [' 四 件 套 '， ' 手机 壳 '] : 
for p in range(88) : 
url = 'https://s.taobao.com/api?callback-jsonp804&m- 
customized&q-2s&s-$s' % (k, p) 
r = requests.get (url) 


response - r.text 


135 





玩 转 Python WEE 


response = response.split('(')[1].split(')') [0] 

response dict - json.loads (response) 

+ 商品 信息 

response auctions info = response dict['API.CustomizedApi'] 


['itemlist']['auctions'] 


123 数据 存储 


本 节 的 数据 存储 主要 选择 文本 文档 , 原因 是 商品 数据 是 不 断 变 化 的 ， 具有 时 效 性 。 
如 果 选 择 存放 在 数据 库 中 ， 可 能 过 了 几 天 ， 这 些 数 据 就 没有 参考 价值 了 ， 所 以 选择 存 
放 在 文件 中 较为 合适 。 以 存储 到 CSV 文件 为 例 ， 代 码 如 下 : 





def get auctions info(response auctions info, file name): 
with open(file name, 'a', newline-'') as csvfile: 
+ 生成 CSV 对 象 ， 用 于 写 入 CSV 文件 
writer = csv.writer (csvfile) 
for i in response auctions info: 
# 判断 是 否 数 据 已 经 记录 
if str(i['raw title']) not in auctions distinct: 
* 写 入 数据 
writer.writerow([i['raw title'], i['view price'], 
i['view sales'], i['nick'], 
i['item 1oc']]) 
auctions distinct.append(str(i['raw title'])) 
csvfile.close() 


get auctions info() 方法 实现 了 将 数据 写 入 CSV 文件 ， 调 用 该 方法 应 传 入 参数 
response auctions info 和 file name， 分 别 是 商品 信息 列表 和 CSV 文件 路 径 。 但 该 文 
件 并 没有 对 CSV 文件 设置 表 头 ， 所 以 在 开始 获取 数据 之 前 ， 应 生成 对 应 的 CSV 文件 
并 设 定 其 表 头 。 

综合 上 述 条 件 ， 整 个 项 目 代码 如 下 : 

import requests 


import json 


import csv 
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# 定义 全 局 变量 ， 用 于 判断 数据 是 否 已 经 记录 
global auctions distinct 


auctions distinct - [] 


def get auctions info(response auctions info, file name): 


with open(file name, 'a', newline-'') as csvfile: 
+ 生成 csv 对 象 ， 用 于 写 入 csv 文件 
writer = csv.writer (csvfile) 
for i in response auctions info: 
# 判断 是 否 数 据 已 经 记录 
if str(i['raw title']) not in auctions distinct: 
* 写 入 数据 
writer.writerow([i['raw title'], i['view price'], 
i['view sales'], i['nick'], 
i['item 1oc']]) 
auctions distinct.append(str(i['raw title'])) 
csvfile.close() 


if name -- ' main ': 
for k in [' MHE ', ' 手机 壳 '] : 
# 新 建 csv 文件 ， 每 循环 一 个 关键 字 会 生成 其 对 应 的 CSV 文件 


file name = k + '.csv' 





with open(file name, 'w', newline='') as csvfile: 
writer = csv.writer (csvfile) 
# 写 入 表 头 信息 
writer.writerow([' 标题 '，' 价格 "'，' 销 量 '，' 店 铺 '，' 区 域 ']) 
csvfile.close() 
# 循环 次 数 可 以 根据 实际 自行 设 定 
for p in range(88): 
url = 'https://s.taobao.com/api?callback-jsonp804&m- 
customized&q-$s&s-$s' $ ( 
k, p) 
r = requests.get (url) 
response - r.text 
response = response.split('(')[1].split(')') [0] 
response dict - json.loads (response) 


response auctions info = response dict['API.CustomizedApi'] 
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['itemlist']['auctions'] 
+ 调用 函数 get_ auctions info 写 入 商品 信息 


get auctions info(response auctions info, file name) 


print(' 获取 数据 量 为 : ' + len(auctions distinct)) 





12.4 本 章 小 结 
本 章 主要 介绍 抓 取 淘宝 网 站 的 商品 信息 ， 是 一 个 比较 简单 的 候 虫 程序 。 


该 项 目 案 例 主要 实现 的 功能 如 下 : 


(1) 使 用 者 提供 关键 字 ， 利 用 淘宝 搜索 功能 获取 搜索 后 的 数据 。 
(2) 获取 商品 信息 : 标题 、 价 格 、 销 量 、 店 铺 名 称 和 店铺 所 在 区 域 。 


(3) 数据 以 文件 方式 存储 。 
从 整个 项 目 开 发 的 角度 分 析 ， 本 项 目 最 大 的 特点 有 以 下 3 点 : 


COD 对 请 求 链接 的 简化 ， 去 除 无 用 的 请 求 参数 。 
(2) 分 析 URL 的 请 求 参数 含义 以 及 响应 内 容 的 数据 规律 。 
(3) 数据 存储 的 去 重 判断 。 本 案例 以 商品 的 标题 判断 去 重 , 判断 条 件 可 自行 修改 。 


建议 读者 掌握 本 项 目 案例 的 实现 方法 并 了 解 其 特点 ， 同 时 通过 上 机 演练 实现 仆 虫 
程序 的 正确 运行 。 
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13.1 分 析 说 明 


现在 的 音乐 类 网 站 仅 提供 歌曲 在 线 免 费 试听 ， 如 果 下 载 歌 曲 ， 往 往 要 收取 版 权 费 
用 ， 但 通过 怜 虫 可 绕 开 这 类 收费 问题 ， 可 以 直接 下 载 我 们 所 需要 的 歌曲 。 

本 章 以 QQ 音乐 为 仆 取 对 象 ， 息 取 范 围 是 全 站 的 歌曲 信息 ， 息 取 方式 是 在 歌手 列 
表 下 获取 每 一 位 歌手 的 全 部 歌曲 。 由 于 怜 取 的 数量 较 大 ， 还 会 使 用 异步 编程 实现 分 布 
式 仆 虫 开 发 ， 提 高 息 虫 效率 。 

整个 仆 虫 项 目 按 功 能 分 为 息 虫 规则 和 数据 入 库 ， 分 别 对 应 文件 music.py 和 music_ 
db.py« 


ERUKE F: 
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在 歌手 列表 Chttps://y.qq.com/portal/singer listhtmD) 中 按照 字母 类 别 对 歌手 进行 
分 类 ， 遍 历 每 个 分 类 下 的 每 位 歌手 页 面 ， 然 后 获取 每 位 歌手 页 面 下 的 全 部 歌曲 信息 。 
根据 该 设计 方案 列 出 遍历 次 数 : 

COD 遍历 每 个 歌手 的 歌曲 页 数 。 

(2) 遍历 每 个 字母 分 类 的 每 页 歌手 信息 。 

(3) 遍历 每 个 字母 分 类 的 歌手 总 页 数 。 

(4) 遍历 26 个 字母 分 类 的 歌手 列表 。 


在 功能 上 至 少 需要 实现 4 次 遍历 ， 但 实际 开发 中 往往 比 这 个 次 数 要 多 。 统 计 遍 历 
次 数 ， 主 要 能 让 开发 者 对 项 目 开 发 有 整体 的 设计 逻辑 。 
项 目 开发 使 用 模块 化 设计 思想 ， 对 整个 项 目 模块 的 划分 如 下 : 


(1) 歌曲 下 载 。 

(2) 歌手 信息 和 歌曲 信息 。 
(3) 字母 分 类 下 的 歌手 列表 。 
(4) 全 站 歌手 列表 。 


13.2 KATE 


下 载 歌 曲 前 ， 先 要 找到 歌曲 的 相关 信息 ， 才 能 够 确定 歌曲 的 下 载 链接 。 以 QQ 
音乐 中 的 某 一 首 歌曲 为 例 进行 介绍 (https:/yqq.com/n/yqq/song/003OUlho2HcRHC 
html) ， 在 Chrome 浏览 器 的 网 址 栏 输入 网 址 后 ， 打 开 开 发 者 工具 ， 如 图 13-1 所 示 。 

从 图 13-1 分 析 ， 服 务 器 返回 的 HTML 信息 (Doc 标签 ) 只 找到 歌曲 的 少量 信息 ， 
有 可 能 歌曲 信息 不 是 由 后 台 返 回 的 ， 而 是 通过 Ajax 请 求生 成 的 。 为 了 进一步 求证 ， 
单 击 XHR 标签 ， 发 现 该 标签 的 请 求 信息 只 是 一 些 广告 信息 ， 说 明 数 据 也 不 在 XHR 标 
签 生 成 。 最 后 单 击 JS 标签 ， 发 现 有 较 多 请 求 信 息 ， 分 别 查找 每 个 请 求 所 返回 的 响应 
内 容 ， 在 某 个 请 求 中 可 以 找到 歌曲 信息 ， 如 图 13-2 所 示 。 
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EE EK 


只 周杰伦 
专辑 : 周杰伦 的 床 边 故 事 ”语种 : 国语 
流派 : Pop 流行 发 行 公司 : 杰 威 尔 音乐 有 限 公司 





dime, 发 行 时 间 : 2016-06-24 











Ú] | Elements Console Sources Network Performance Memory Application Security Audits 
. o e Y | View 





目 Group by frame | (B) Preserve log (B Disable cache | B Offine Onine Y 


























Filter ] E) ide data URLs Al | XHR JS CSS Img Media Font 国 Ws Manifest Other 
lame X Headers | Preview | Response Cookies Timing 
003OUIho2HcRHC html = 
204 <li class="data_info_item") 专 辑 : <a href-"//y.qq.com/n/yqq/album/003RMaRI1i! 
205 
206 item data info item--even js_lan"> 语 种 : BBB/1i5 
297 一 WR ib 
208 <li class-"data info item data info item--even js_company"y 发 行 公司 : c/1i» 
209 
210 
jn <li class-"data info item js_public_time"y 发 行 时 间 : «/1i» 
图 13-1 开发 者 工具 
Name |X Headers | Preview Response Cookies Timing 
DD fcg. music red dotafcg?g tk- 13142" 4 1enguege: v 
— mid: "6030Ulho2HcRHC" 
[E] fcg. getuser. infoEx.fcg?rnd -2520020 modify stamp: 0 
|. feg. play single. song.fcg?songmid.-C bmv: (id: 1053277, name: "", title: vid: "u002221e40x") 





辐 fcg, musiclist getmyfav.fcg?dirid- 20' 
[.] feg.get. profile; homepage fcg?g tk- 
E emojijstmax age-2592000 

[ feg.v8 album info cp.fcg?albummid. 


: 1, pay month: 1, pay play: @, pay status: @, price album: 2000 
: "0025Nh1N2yWrP4", name: “ 周 本 伦 "， : 





subtitle: "* 
time public: "2016-06-24" 


E] fg. query. lyricfcg?nobase64 - 1&mu| title: "告白 气球 " 








口 gethotkeyfcg?g tk=13142129968jsc trace 
fcg. mv. getinfo bysongid.fcg?utf8- 1 type: 0 

g CIL iri > url: "http://stream1.qqmusic.qq.com/119192078.wma" 
[ feg.iphone music _rec_songlist?jsonp, pee 用 
[E] download 5c3a402 js?max age- 315 P volume: (gain: -8.993, lra: 5.026, peak: 0.994) 

" extra data: [] 
[DO dialog. 1614670js?max age 315360c 

joox: 9 

E] ZeroClipboard d1e7210js?max age- ont opis à 
口 taogelist 0(3793a js?max age-3153€ msgid: 9 





512012561.» | vurl: (107192078: "ws.stream.qqmusic.qq.com/C1000030U1ho2HcRHC.m4a?fromtag-: 
107192078: "ws.stream.qqmusic.qq.com/C1000030U1ho2HcRHC.m4a?fromtags-38" 


图 13-2 歌曲 请 求 信息 
从 请 求 的 响应 内 容 中 得 到 两 个 URL 信息 ， 分 别 是 : 


[E] stats?sld -58495963& : 

















http://streaml.qqmusic.qq.com/119192078.wma 
ws.stream.qqmusic.qq.com/C1000030U1ho2HcRHC.m4a?fromtag-38 








在 浏览 器 中 分 别 对 两 个 URL 进行 访问 ， 发 现 前 者 出 现 404 报错 信息 ， 后 者 是 一 
个 音频 文件 ， 也 就 是 我 们 所 需 的 歌曲 文件 。 

从 后 者 的 URL 结 构 分 析 得 知 : C1000030UIho2HcRHC 用 于 标识 歌曲 的 唯 
一 性 。 而 在 该 请 求 的 响应 内 容 中 发 现 mid 值 是 0030Ulho2HcRHC， 对 比 发 现 
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C100003OUIho2HcRHC 由 C100 和 0030UIho2HcRHC 组 成 ，C100 是 固定 不 变 的 ， 只 
要 取 到 每 首 歌 的 mid 就 能 确定 歌曲 下 载 链接 。 实 现代 码 如 下 : 
import requests 


songmid = 'C100' + '0030Ulho2HcRHC' 
url = 'http://ws.stream.qqmusic.qq.com/%s.m4a?fromtag=38' %(songmid) 






































r = requests.get (url) 

f = open(songmid + '.m4a', 'wb') 
f.write(r.content) 
E 


close () 


下 载 的 歌曲 文件 的 大 小 只 有 IMB 左右 ， 说 明 歌 曲 的 音质 不 太 好 ， 试 问 品 质 这 么 
差 的 歌曲 怎么 能 满足 广大 群众 的 需求 呢 ? 

对 此 ， 我 们 不 采取 这 种 下 载 方式 ， 为 了 寻找 更 优质 的 歌曲 文件 ， 在 线 试听 当前 
歌曲 ， 试 着 能 否 在 播放 页 面 上 找到 下 载 链接 。 无 论 在 歌曲 播放 页 面 Chttps:/y.qq.com/ 
portal/player.htmD 播放 什么 歌曲 ， 其 URL 都 不 会 有 变化 ， 说 明 歌 曲 切 换 是 由 Ajax 请 
求 后 台 实 现 的 。 
在 播放 页 中 ， 单 击 开 发 者 工具 的 Media 标签 ， 看 到 一 个 音频 信息 ， 在 浏览 器 中 访 
问 请 求 链接 并 下 载 ， 发 现下 载 的 音频 文件 大 小 有 2.7MB， 相 比 之 前 下 载 的 歌曲 文件 ， 
其 音质 更 符合 我 们 所 需 ， 如 图 13-3 所 示 。 













































































R Ó] | Elements Console Sources Network Performance Memory Application Security Audits 


9 O m v vet Group by frame | (B Preserve log (B) Disable cache | @ Offline Online Y 


[Fiter E Hide data URLs All | XHR JS CSS Img (BED Font Doc WS Manifest Other 


Name X | Headers Preview Response Cookies Timing 


N enc, 
Request URL: http://d1.stream.qqmusic.qq.com/CA000030U1ho2HcRHC.m4a ?vkey=75F570842001974C1847342BE77ED0| 
8F0997AD216EE318guid«38468699888uin«554301449&fromtags66 











图 13-3 媒体 请 求 信息 











为 方便 分 析 URL 构成 ， 以 代码 形式 展现 : 


http://dl.stream.qqmusic.qq.com/C4000030U1ho2HCRHC.m4a?vkey-7E327 
8292B2B5944B8B5A234FC865DFB71 

54924FCE503E921E244617C8C791B55D07FFBB7D67CBFB393A88645DEB5B5BC58 
835C5428D69D3&guid-3846869988&uin-554301449&fromtag-66 
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图 13-3 的 请 求 链接 分 析 如 下 : 


C1) C400003OUIho2HcRHC 是 由 C400+003OUIho2HcRHC 组 成 的 , 003OUIho2HcRHC 
是 图 13-2 的 mid 值 。 
(2) 参数 uin 是 用 户 的 QQ 号 码 ， 参 数 fromtag 的 值 固定 不 变 。 


(3) 参数 vkey 和 guid 无 法 得 知 由 来 ， 可 能 是 从 其 他 请 求 信 息 生成 的 ， 从 Doc、 


KHR 和 JS 依次 查找 参数 值 。 最 终 在 JS 标签 某 个 请 求 的 响应 内 容 中 找 出 参数 vkey， 
如 图 13-4 所 示 。 








[Name 
[L] eg. getuser infeExfeg?rmd-25 2 | v m,sicosonceriback0450802234518:527((c00e: ©, cid: 205361747, userip: -119.126.143.52°, data: (expiration: 80000,.)) 
[]sengistfobdefjs?maxages | cid: 205351747 
日 fg museistgetmysviegide | — cooe: © 

ix 





X Headers | Preview] Response Cooles Timing 


vdata: (expiration: 80406,-) 
expiration: 58489 






Vitens: [(subcode: 0, songmid: "G03OUIho2HcRHC", filename: "C4000030U1hc2HcRHC.m4a",-)] 
Yo: (stbcode: 0, songmid: "00SOUInOZWCRHC-, filename: "Cé00003OUIhOZHCHHC.m4a" ,-) 
Filename: "CA000030ULhoIHcRHC.m4a" 
songaia: -eesoUinoncmc" 
[.] dialog. 16:4670js?rmax age=3 
口 fg quey lyric newfcg?callba 
(El tea va album info en fcazall 


subcode: © 





Vkey: "7t5278192828559 448885 A25AFCS0SOHU7 154928 F CESOSES2 1E244617CBC791855007FFBB7D07CBF E39 SABSOA SOL BSUSSCSI 35C 542806905" 
userip: "119.126.143. 52* 








o zu] 





图 13-4 响应 内 容 
对 图 13-4 的 请 求 链接 进行 分 析 ， 以 代码 形式 展现 : 


https://c.y.qq.com/base/fcgi-bin/fcg music express mobile3.fcg? 

g tk-1314212996&jsonpCallback-MusicJSONCallback04508022343182527& 
loginUin-554301449&hostUin-0&format-json&inCharset-utf8&outCharset-u 
tf-8&notice-0&platform-yqq&needNewCode-0&cid-205361747& 

callback-MusicJSONCallback04508022343182527&uin-554301449&songmid 
70030U1ho2HcRHC&filename-C4000030U1ho2HcRHC.m4a&guid-3846869988 


进一步 简化 图 13-4 的 URL， 可 将 URL 在 浏览 器 中 访问 ， 每 次 删除 或 修改 URL 
的 请 求 参数 ， 观 察 浏览 器 返回 的 响应 内 容 是 否 和 前 一 次 一 致 ， 最 终 URL 优化 如 下 : 


https://c.y.qq.com/base/fcgi-bin/fcg music express mobile3.fcg? 
loginUin-0&hostUin-0&cid-205361747&uin-0&songmid-0030Ulho2HCRHC&f 
ilename-C4000030Ulho2HcRHC.m4a&guid-0 


通过 对 图 13-3 和 图 13-4 的 URL 和 响应 内 容 分 析 发 现 : 


COD 两 者 的 请 求 参数 guid 和 uin 的 值 必须 保持 一 致 ， 参 数值 可 自行 设置 。 
(2) 图 13-3 的 请 求 参数 vkey 来 源 于 图 13-4 响应 内 容 的 vkey。 
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b: 


(3) 图 13-3 请 求 链接 的 C400003OUIho2HcRHC.m4a 来 源 于 图 13-4 响应 内 容 的 


filename. 


综合 上 述 分 析 ， 最 终 代 码 如 下 : 


import requests 
+ 请 求 头 
headers = ('User-Agent': 
'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0"' 
) 
# 创建 session 会 话 
session = requests.session() 
* 下 载 歌 曲 
def download (songmid) : 
filename = 'C400' + songmid 
# 获取 vkey 
url = "https://c.Yy.qq.com/base/fcgi-bin/fcg music express | 
mobile3.fcg?loginUin-0&hostUin-0"' 
&cid-205361747&uin-0&songmid-$s&filename-$s.m4a&guid-0' $% 
(songmid, filename) 
r = session.get(url, headers-headers) 
vkey = r.json()['data']['items'] [0] ['vkey'] 
# 下 载 歌 曲 
url = 'http://dl.stream.qqmusic.qq.com/$s.m4a?vkey-$s&guid-0& 
uin-0&fromtag-66' $ 
(filename, vkey) 
r = session.get(url, headers-headers) 
# 保存 在 当前 目录 下 的 song 文件 夹 
f = open('song/' + songmid + '.m4a', 'wb') 


f.write(r.content) 





f.close() 
XE name == ' main ': 
songmid = '0030Ul1ho2HcRHC' 
download (songmid) 


上 述 代 码 中 ， 将 下 载 歌 曲 以 download) 方法 定义 ， 参 数 是 歌曲 的 songmid， 下 载 


144 





第 13 3€ 项 目 实战 : 分布 式 仆 虫 一 一 QQ 音乐 














的 歌曲 文件 以 歌曲 的 songmid 命名 。 运 行 代码 ， 可 以 看 到 下 载 的 音频 文件 有 2.7MB， 
试听 两 者 ， 发 现 后 者 比 前 者 更 优质 。 











13.3 歌手 和 歌曲 信息 


前 面 已 实现 歌曲 下 载 功能 ， 接 着 批量 获取 歌曲 信息 ， 实 现 批 量 下 载 歌 曲 。 根 
据 项 目 设计 ， 歌 曲 信 息 是 在 歌手 页 面 获取 的 ， 以 周杰伦 (y.qq.com/n/yqq/singer/ 
0025NhIN2yWrP4.html#tab=song〉 为 例 ， 使 用 开发 者 工具 分 析 歌 手 页 面 ， 分 别 在 
Doc. XHR 和 JS 里 使 用 “Ctrl+F” 快 速 查找 某 一 首 歌 曲 信息 。 最 终 在 JS 的 某 一 条 请 
求 中 找到 歌曲 信息 ， 如 图 13-5 所 示 。 






























































[Fiter | E Hide data URLs Al | XHR (f CSS img Media Font Doc WS Manifest Other 

Name [x Headers [Preview | Response Cookies Timing 

[ feg. order. singer. getnum.fcg?g.tk«2 ^ | ¥ MusicJsonCallbacksinger_track({code: @,-} ) 

[DER dst: [=], singer id: "4558*, singer mid: “9825MhaM2yhrpa"，singer_nane: "AÈ", total: 394) 

LL] kg và singer album fcg?format-jso. visti La) 

[ feg.singer mv.fcg?cid 22053605818 P0: (Flisten countl: "189333605", Fupload time: "2016-06-06 16: 0, listenCount: 0,-) 

E feg. singer. mvcg?cid -2053605818:] P1: (Flisten countl: "139233434", Fupload time: "2014-12-16 15: 0, listenCount: 6,-) 
P2: (Flisten countl: "1298496967, Fupload time: "2008-11-04 15:36: 6, listenCount: ©, 

L feg. và. simsinger.fcg?utfB 1&singer. | 3: (Flisten countl: "126134371", Fupload time: "2005-10-24 11:11: ; 6, listenCount: 0,-) 

[E] emojis?max age 2592000 4: (Flisten countl: "124256135", Fupload time: "2007-10-31 e, 2 

[ mviist 7819512 js?max age=315360(| P5: (Flisten countl: "117002357", Fupload time: "2014-11-20 o, =} 

pe " P6: (Flisten countl: "115929864, Fupload time: "2015-02-07 e 1] 











13-5 歌手 页 面 的 歌曲 信息 
从 图 13-5 分 析 可 得 : 





(1) total 是 当前 歌手 的 全 部 歌曲 数目 。 


(2) list 是 歌曲 信息 列表 ， 每 页 共 30 首 歌曲 ， 对 某 首 歌 的 信息 进行 分 析 ， 在 
信息 中 找到 歌曲 标识 符 、 歌 名 、 所 属 专辑 和 时 长 ， 分 别 对 应 songmid、songname、 
albumname 和 interval， 如 图 13-6 所 示 。 


对 请 求 链接 进行 分 析 ， 以 代码 形式 展现 : 











https://c.y.qq.com/v8/fcg-bin/fcg v8 singer track cp.fcg?g 
tk-2005119861&jsonpCallback- 

MusicJSONCallbacksinger track&loginUin-554301449&hostUin-0&format 
-jsonp&inCharset-utf8 

&outCharset-utf-8&notice-0&platform-yqq&needNewCode-0&singermid-0 
025NhlN2yWrP4&order-listen 

&begin-0&num-30&songstatus-1 
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HH 





viist: -J 
vO: (Flisten counti: "189333605", Fupload time: "2016-06-06 16:21:17", index: 1, isnew: 0, listenCount: 0,..) 
Flisten count: "189333605" 
Fupload time: "2016-06-06 16:21:17" 
index: 1 
isnew: 9 
listenCount: 9 
wmusicData: (albumdesc: "", 


; albumid: 1458791, albummid: "O03RMaRIliFoYd", albumname: “周杰伦 的 床 边 趣事 "，alertid: 100002,.) 
alb 






albummid: "O03RMaRIliFoYG" 
albumname:“ 周 本 伦 的 床 边 故事 ” 
alertid: 100002 
belongCD: 8 
cdldx: © 
interval: 215 
isonly: 8 
label: "4611686018435776513" 
msgid: 14 
Ppay: (payalbum: 1, payalbumprice: 2000, paydownload: 1, payinfo: 1, payplay: 9, paytrackmouth: 1,-) 
P preview: (trybegin: 65138, tryend: 85421, trysize: 325589) 
rate: 31 
P singer: [(id: 4558, mid: "0025NhlN2yWrPA", name: “周杰伦 "}] 
sizes 1: 0 
Size128: 3443771 
size320: 8608939 
sizeape: 24929083 
sizeflac: 24971563 
sizeogg: 5001304 
songid: 107192078 
songmid: "0030Ulho2HcRHC" 
Songname:“ 告 白 气球 ” 














图 13-6 歌曲 信息 





为 了 简化 URL， 在 浏览 器 上 进行 访问 ， 然 后 对 其 请 求 参数 进行 删改 ， 对 比 浏览 
器 返回 的 响应 内 容 是 否 和 前 面 一 致 ， 最 终 URL 优化 如 下 : 


E 





https://c.y.qq.com/v8/fcg-bin/fcg_v8_singer_track_ 
cp.fcg?loginUin=0&hostUin=0 


&singermid-0025NhlN2yWrP4&order-listen&begin-0&num-30&songstat 
us=1 


从 请 求 参数 分 析 得 知 : 


(1) singermid 是 指 歌手 的 mid， 其 作用 与 songmid 相同 ， 标 识 歌 手 的 唯一 性 。 


(2) begin 代表 歌曲 页 数 ， 在 网 页 上 单 击 第 二 页 的 时 候 ， 会 触发 相同 的 请 求 ， 
发 现 请 求 参数 begin 变 为 30， 说 明 页 数 不 是 按 1、2、3…… 计 算 的 ， 而 是 按照 (p-1) 
*30 的 计算 公式 获取 页 数 的 。 


(3) num 是 每 页 歌曲 数量 的 间隔 数 。 


综合 分 析 ， 只 要 动态 设置 singermid 和 begin 的 值 ， 就 能 获取 不 同 歌手 的 全 部 歌 
信息 。 代 码 如 下 : 
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# 获取 歌手 的 全 部 歌曲 
def get singer songs (singermid): 
+ 获取 歌手 姓名 和 歌曲 总 数 
url = 'https://c.y.qq.com/v8/fcg-bin/fcg v8 singer track 
cp.fcg? 
loginUin-0&hostUin-0&singermid-$s&order-listen&begin-0&num-30&son 
gstatus-1' 
$ (singermid) 
r = session.get (url) 
# 获取 歌手 姓名 
song singer = r.json()['data']['singer name'] 
# 获取 歌曲 总 数 
songcount = r.json()['data']['total'] 
# 根据 歌曲 总 数 计算 总 页 数 
pagecount = math.ceil(int(songcount) / 30) 
# 循环 页 数 ， 获 取 每 一 页 歌曲 信息 
for p in range (pagecount): 
url = 'https://c.y.qq.com/v8/fcg-bin/ 
fcg v8 singer track cp.fcg? 
loginUin-0&hostUin-0&singermid-$s&order- 
listen&begin-$s&num-30&songstatus-1' 
$(singermid, p * 30) 
r = session.get (url) 
# 得 到 每 页 的 歌曲 信息 
music data = r.json()['data']['list'] 
# songname: 歌 名 ，ablum: 418, interval: 时 长 ，songmid: 歌曲 
id， 用 于 下 载 音频 文件 
# 将 歌曲 信息 存放 于 字典 song_dict 中 ， 用 于 入 库 
song dict = {} 
for i in music data: 
song dict['song name'] - i['musicData']['songname'] 


song dict['song ablum'] - i['musicData']['albumname'] 


song dict['song interval'] - i['musicData'] 
['interval'] 

song dict['song songmid'] - i['musicData']['songmid'] 

song dict['song singer'] - song singer 
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# 下 载 歌 曲 

download(song dict['song songmid']) 
+ 入 库 处 理 ， 参 数 song_dict 

insert data(song dict) 

* song dict 清空 处 理 

song dict - () 


函数 get singer songs 用 于 疏 取 歌手 的 全 部 歌曲 ， 代 码 说 明 如 下 : 


(1) 参数 singermid 代表 歌手 的 唯一 值 ， 只 需要 传 入 不 同 歌手 的 singermid， 就 
能 疏 取 不 同 歌手 的 全 部 歌曲 。 

(2) 代码 有 两 个 相同 变量 url， 第 一 个 用 于 动态 设置 歌手 的 singermid， 获 取 歌 曲 
总 数 和 歌手 姓名 ;第 二 个 用 于 动态 设置 页 数 ， 获 取 当 前 歌手 每 一 页 的 歌曲 信息 。 

G) 下 载 歌 曲调 用 了 13.2 节 实 现 的 download() 函数 ; 入 库 处 理 是 调用 入 库 函 数 
insert_data()， 该 函数 会 在 后 续 章 节 讲 解 。 


























134 分 类 歌手 列表 


现在 已 实现 获取 单个 歌手 的 全 部 歌曲 信息 ， 只 要 在 此 功能 的 基础 上 遍历 输入 不 同 
歌手 的 singermid， 就 能 获取 不 同 歌手 的 歌曲 信息 。 从 Chrome 开发 者 工具 对 歌手 列表 
Cy.qq.com/portal/singer list.html) 的 分 析 得 知 ， 歌 手 页 数 有 5526 页 ， 每 页 100 位 歌手 ， 
全 站 的 歌手 共有 552503 位 ， 如 图 13-7 所 示 。 














[Name X Headers | Preview | Response Timing 
|] modjstr-2520189 YGetSingerlistCallback((code: 0, data: (list: [,-], per page: 100, total: 552502, total page: 5526), message: "succ",-) ) 
[F singerlist 7cbe3h3jstmax a. code: 0 

C common, dd2'19c9jstmax a... 
[] returncode. 486a5bcjs!max. 7i", Fattribute 3: "3", Fattribute 4: "0", Fgenre: "0", Findex: "X", Fother name: "Joker*,.) 
|. ] fcg music red dota fcg?g t... 
|[.] fcg. get profile homep: 
[O fcg. order. singer. getiist.fcg... 





[.] emojijs?max age-2592000 





|] dialog. 1694670 js?max age... 
目 stats?sld -58495963& -15... 

















图 13-7 歌手 信息 
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从 图 13-7 看 到 ，list 是 100 位 歌手 的 信息 列表 ， 每 条 信息 的 Fsinger_mid 是 歌手 
的 singermid。 如 果 获 取 全 部 歌手 的 Fsinger mid， 就 需要 循环 552503 次 ， 根 据 项 目 设 
计 ， 将 循环 次 数 按 字 母 分 类 划分 。 

在 歌手 列表 页 上 使 用 字母 A 一 QZ 对 歌手 进行 分 类 筛选 ， 利 用 这 个 分 类 功能 可 以 
将 全 部 歌手 分 为 两 层 循环 : 第 一 层 是 循环 每 一 个 字母 分 类 ， 第 二 层 是 循环 每 个 分 类 下 
的 总 页 数 ， 拆 分 两 层 循环 主要 为 异步 编程 提供 切入 点 ， 具 体 实现 方式 会 在 后 面 的 章节 
讲解 。 

在 网 页 上 单 击 分 类 “A”， 可 在 开发 者 工具 的 JS 标签 看 到 相应 的 请 求 信息 ， 如 图 
13-8 所 示 。 














Name X Headers | Preview | Response Cookies Timing 
[I v&eg?channelesinger&pa.. | wGetSingerlistCallback((code: 0, data: (list: [,-], per page: 100, total: 39707, total page: 398), message: "succ! 
code: © 
v data: (list: [,-], per page: 100, total: 39707, total page: 398) 





vlist: L,-] 





"^, Fattribute 3: "0", Fattribute 4: "0", Fgenre: "0", Findex: "A"，Fother_name:“ 艾 伦 - 沃 克 "，-} 











"Alan Walker ( 艾 伦 - 沃 克 )” 


*1: (Farea: “9"，Fattribute_3: "2", Fattribute 4: "0", Fgenre: "0", Findex: “A"，Fother_nane:“ 黄 丽 玲 ",，-~) 
1/2 requests | A1KB/A3K.. 2: (Farea: 73", Fattribute 3: "7", Fattribute 4: "0", Fgenre: "0", Findex: "A", Fother name: "BIR" ,-} 


图 13-8 歌手 分 类 列表 














分 析 请 求 链接 并 以 代码 形式 展现 : 


https://c.y.qq.com/v8/£cg-bin/v8.fcg?channel-singer&page-list&key 
-all all A&pagesize-100 

&pagenum-1&g tk-354851523&jsonpCallback-GetSingerListCallback&log 
inUin-554301449&hostUin-0 

&format-jsonp&inCharset-utf8&0outCharset-utf-8&notice-0&platform-y 
qq&needNewCode-0 


按照 前 面 的 处 理 方式 ， 对 URL 进行 删 减 优化 处 理 ， 最 终 得 到 的 URL 如 下 : 





https://c.y.qq.com/v8/£cg-bin/v8.fcg?channel-singer&page-list&key 
-all all A&pagesize-100 
&pagenum-l&loginUin-0&hostUin-0&format-jsonp 
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从 URL 的 请 求 参数 分 析 得 知 : 


COD key 代表 筛选 条 件 ，all_all_A 代表 字母 分 类 A. 

(2) pagenum 代表 页 数 ， 页 数 按 1、2、3…… 方 式 计算 。 

(3) pagesize-100 代表 每 页 有 100 位 歌手 ， 该 参数 的 值 固 定 不 变 。 
(4) loginUin、hostUin 和 format 参数 固定 不 变 。 


综合 上 述 分 析 ， 功 能 代码 如 下 : 


# 获取 当前 字母 下 的 全 部 歌手 
def get genre singer(key, page list): 
# 遍历 当前 字母 分 类 的 总 页 数 
for p in page list: 
url = 'https://c.y.qq.com/v8/fcg-bin/v8.fcg?channel- 
singer&page-list&key-all all $s"' 
&pagesize-100&pagenum-$s&loginUin-0&hostUin-0&format-jsonp' 
$ (key, p * 1) 
r = session.get (url) 
# 遍历 每 一 页 的 每 一 个 歌手 
for k in r.json() ['data']['list']: 
singermid - k['Fsinger mid'] 
+ 得 到 的 singermid £A 13.3 节 实现 的 函数 方法 


get singer songs (singermid) 
函数 get genre singer A FIERA FEDR FERFE Sb fei E: 


CD 参数 key 和 page_list 分 别 是 当前 分 类 和 当前 分 类 的 歌手 总 页 数 (列表 结构 ) 。 
(2) 外 层 循环 用 于 遍历 当前 分 类 的 总 页 数 。 


(3) 内 层 循 环 用 于 遍历 当前 分 类 每 页 每 位 歌手 的 singermid， 并 调用 函数 get_ 
singer_songs() 获取 每 一 位 歌手 的 全 部 歌曲 。 


13.5 全 站 歌手 列表 


13.4 节 已 实现 疏 取 单个 字母 分 类 的 全 部 歌手 的 歌曲 信息 。 如 果 想 获取 全 站 的 歌曲 
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信息 ， 那 么 只 需要 在 13.4 节 实现 的 功能 上 再 遍历 26 个 字母 ， 实 现代 码 如 下 : 


# 获取 全 站 歌手 
def get all singer(): 
# 获取 字母 A ~ z 的 全 站 歌手 
for i in range(65, 90): 
# 通过 ASCII 转换 字母 
key = chr(i) 
# 获取 当前 字母 分 类 的 总 歌手 页 数 ， 并 转换 列表 结构 
url = 'https://c.y.qq.com/v8/fcg-bin/v8.fcg?channel- 
singer&page-list&key-all all $s 
&pagesize-100&pagenum-$s&loginUin-0&hostUin-0&format- 
jsonp' $ (key, 1) 
r = session.get(url, headers-headers) 
pagenum - r.json()['data']['total page'] 
# 构建 参数 
page list = [x for x in range (pagenum)] 
+ 调用 13.4 节 实现 的 函数 
get genre singer(key, page list) 
+ 主 程序 运行 


if name -- ' main ': 





get all singer() 
上 述 代 码 功 能 说 明 如 下 : 


(1) 循环 从 65 开始 ， 到 90 结束 ，65 — 90 在 ASCI 中 代表 字母 A — Z。 
(2) 将 当前 循环 次 数 i 转换 成 字母 ， 并 赋值 给 key 变量 。 

G) 向 网 站 发 送 请 求 ， 获 取 每 个 字母 分 类 的 歌手 总 页 数 。 

(A) 将 总 页 数 生成 列表 结构 ， 作 为 函数 get_genre_singer0 的 参数 。 


上 述 代 码 是 整个 项 目 程序 的 运行 入 口 ， 程 序 运行 执行 函数 的 顺序 如 下 : 


(1) get all singer): 循环 26 个 字母 ， 构 建 参数 并 调用 函数 get_genre_singer0。 

(2) get genre singer(key, page list): 遍历 当前 分 类 总 页 数 ， 获 取 每 页 每 位 歌手 
的 歌曲 信息 。 

(3) get singer songs(singermid): 实现 歌手 的 歌曲 入 库 和 下 载 。 
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(4) download(songmid): 下 载 歌 曲 。 
C5) insert data(song dict): 入 库 处 理 。 





13.6 数据 存储 


在 逻辑 功能 实现 过 程 中 发 现 数据 入 库 的 函数 insert_data0， 该 函数 主要 存放 在 
music db.py 中 ， 本 节 使 用 SQOLAlchemy 实现 数据 入 库 。 
根据 疏 虫 规则 分 析 ， 入 库 的 数据 有 歌 名 、 所 属 专辑 、 时 长 、 歌 曲 mid〈 下 载 歌 曲 


文件 以 歌曲 mid 命名 ) 和 歌手 姓名 。 针 对 所 疏 取 的 数据 及 性 质 ， 数 据 库 命名 如 表 13-1 
所 示 。 


表 13-1 song 数 据 表 
中 文 名 


所 局 





song interval 时 长 
song songmid 歌曲 mid 
歌手 姓名 
SQLAlchemy 映射 数据 库 代 码 如 下 : 





from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 

# 连接 数据 库 

engine-create engine ("mysql*pymysql://root:1234810calhost:3306/ 
music db?charset-utf8") 

# 创建 会 话 对 象 ， 用 于 数据 表 的 操作 

DBSession = sessionmaker (bind=engine) 

SQLsession = DBSession() 

Base = declarative base() 

# 映射 数据 表 


class song (Base): 
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# 表 名 
. tablename _ ="'song"' 
* 字段 、 属 性 
song id = Column (Integer, primary key=True) 
song name = Column (String (50)) 
song ablum = Column (String (50) ) 
song interval = Column (String (50) ) 
song songmid = Column (String (50) ) 
song singer = Column (String (50) ) 
* 创建 数据 表 


Base.metadata.create all(engine) 


完成 SQLAlchemy 和 数据 库 的 映射 ， 在 上 述 代 码 中 补充 insert data) 函数 ， 代 码 
如 下 : 


def insert data(song dict): 
# 连接 数据 库 
engine = create engine ("mysql*tpymysql://root:123481ocalhost: 
3306/music db?charset-utf8") 
* 创建 会 话 对 象 ， 用 于 数据 表 的 操作 
DBSession = sessionmaker (bind=engine) 
SQLsession = DBSession() 
data = song( 
song name - song dict['song name'], 
song ablum - song dict['song ablum'], 
song interval - song dict['song interval'], 
song songmid = song dict['song songmid'], 
song singer - song dict['song singer'], 
) 
SQLsession.add (data) 


SQLsession.commit () 


函数 insert data() 主要 对 传递 的 参数 song dict 进行 入 库 处 理 ， 参 数 song dict 为 
字典 格式 。 函 数 运行 会 创建 新 的 数据 库 连 接 ， 创 建新 数据 库 连 接 主 要 是 为 异步 编程 做 
准备 。 

上 述 代 码 存放 在 music_db py 文件 中 ， 在 musicpy 中 只 需 导 入 music db.py 的 
insert data() 函数 即 可 实现 数据 入 库 。 
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137 分 布 式 概念 


怜 虫 的 疏 取 效率 是 实际 生产 中 一 个 重要 的 考虑 因素 ， 时 间 就 是 金钱 ， 更 是 一 个 企 
业 能 够 生存 下 来 的 准则 之 一 。 为 了 提高 疏 虫 的 效率 ， 在 此 为 大 家 介绍 异步 编程 开发 思 
想 ， 简 单 地 说 ， 就 是 利用 多 进程 和 多 线程 实现 疏 虫 开发 。 

GIL 和 多 线程 的 关系 值得 注意 。 很 多 读者 会 对 Python 的 多 线程 有 一 定 的 误解 ， 
Python 执行 环境 大 部 分 依赖 于 GIL， 而 GIL 限制 了 多 线程 的 功能 。 





13.7.1 GIL 是 什么 


首先 需要 明确 的 一 点 是 ，GIL 并 不 是 Python 的 特性 ， 它 是 在 实现 Python 解析 器 
(CPython) 时 所 引入 的 一 个 概念 。 就 好 比 C++ 是 一 套 语言 (语法 ) 标准 ， 但 是 可 
以 用 不 同 的 编译 器 来 编译 成 可 执行 代码 。 有 名 的 编译 器 有 GCC, INTEL C++, Visual 
C++ 等 。Python 也 一 样 ， 同 样 的 代码 可 以 通过 CPython、PyPy、Psyco 等 不 同 的 
Python 执行 环境 来 执行 。 像 其 中 的 JPython 就 没有 GIL。 然 而 因为 CPython 是 大 部 分 
环境 下 默认 的 Python 执行 环境 ， 所 以 在 很 多 人 的 概念 里 CPython 就 是 Python， 也 就 
想当然 地 把 GIL 归结 为 Python 语言 的 缺陷 。 这 里 要 先 明 确 一 点 : GIL 并 不 是 Python 
的 特性 ，Python 完全 可 以 不 依赖 于 GIL. 


13.7.2 为 什么 会 有 GIL 


由 于 物理 上 的 限制 ， 各 个 CPU 厂商 在 核心 频率 上 的 比赛 已 经 被 多 核 所 取代 。 为 
了 更 有 效 地 利用 多 核 处 理 器 的 性 能 ， 就 出 现 了 多 线程 的 编程 方式 ， 而 随 之 带 来 的 就 是 
线程 间 数 据 一 致 性 和 状态 同步 的 困难 。 

为 了 利用 多 核 ，Python 开始 支持 多 线程 。 而 解决 多 线程 之 间 数 据 完 整 性 和 状态 同 
步 的 最 简单 的 方法 就 是 加 锁 。 于 是 有 了 GIL 这 把 超级 大 锁 ， 而 当 越 来 越 多 的 代码 库 
开发 者 接受 了 这 种 设 定 后 ， 他 们 开始 大 量 依赖 这 种 特性 〈 即 默认 Python 内 部 对 象 是 
thread-safe 的 ， 无 须 在 实现 时 考虑 额外 的 内 存 锁 和 同步 操作 ) 。 

Python 在 设计 之 初 就 考虑 到 要 在 解释 器 的 主 循环 中 同时 只 有 一 个 线程 在 执行 ， 即 
在 任意 时 刻 ， 只 有 一 个 线程 在 解释 器 中 运行 。 对 Python 虚拟 机 的 访问 由 全 局 解释 器 
锁 (GIL) 来 控制 ， 正 是 这 个 锁 能 保证 同一 时 刻 只 有 一 个 线程 在 运行 。 
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在 多 线程 环境 中 ，Python 解释 器 按 以 下 方式 执行 : 


OD 设置 GIL。 

(2) 切换 到 一 个 线程 去 运行 。 

G) 运行 ， 指定 数量 的 字 节 码 指令 或 者 线程 主动 让 出 控制 (可 以 调用 time. 
sleep(0)) 。 

(4) 把 线程 设置 为 睡眠 状态 。 

(5) 解锁 GIL。 

(6) 再 次 重复 以 上 所 有 步骤 。 


有 人 认为 Python 的 多 线程 比较 “鸡肋 ”， 这 种 说 法 只 是 相对 而 言 的 ，Python 是 
仅 有 的 支持 多 线程 的 解释 型 语言 (Perl 的 多 线程 是 残疾 的 ，PHP 没有 多 线程 ) 。 相 对 
自身 而 言 , 如 果 代 码 是 CPU 密集 型 的 , 并 且 是 线性 执行 , 在 这 种 情况 下 多 线程 就 是 “ 鸡 
肋 ”， 效 率 可 能 还 不 如 单线 程 ， 如 果 代码 是 IO 密集 型 的 ， 多 线程 可 以 明显 提高 效率 ， 
例如 怜 虫 ， 在 绝 大 多 数 时 间 都 在 等 待 服务 器 返回 数据 和 频繁 的 数据 读 写 。 


13.8 并 发 库 concurrent.futures 





Python 标准 库 为 我 们 提供 了 threading 和 multiprocessing 模块 编写 相应 的 多 线 
程 / 多 进程 代码 。 从 Python 3.2 开始 ， 标 准 库 为 我 们 提供 了 concurrent.futures 模块 ， 
它 提供 了 ThreadPoolExecutor 和 ProcessPoolExecutor 两 个 类 ， 实 现 了 对 threading 和 
multiprocessing 更 高 级 的 抽象 ， 对 编写 线程 池 / 进程 池 提供 了 直接 的 支持 。 


下 面 通过 简单 的 例子 讲解 如 何 使 用 concurrent.futures， 代 码 如 下 : 


# 导入 concurrent .futures 模块 
from concurrent.futures import ThreadPoolExecutor, 
ProcessPoolExecutor 


import datetime 
线程 的 执行 方法 


def print value (value): 


print('Thread' + str(value)) 


155 





玩 转 Python EE 


+ 每 个 进程 里 面 的 线程 

def myThread (value) : 
Thread = ThreadPoolExecutor (max workers-2) 
Thread.submit(print value, datetime.datetime.now()) 


Thread.submit(print value, datetime.datetime.now()) 


# 创建 两 个 进程 ， 每 个 进程 执行 myThread 方法 ，myThread 主要 将 每 个 进程 通过 线程 
执行 
# 如 果 不 填 写 max_workers=2， 就 会 根据 计算 机 的 每 一 个 CPU 创建 一 个 Python 进程 ， 
如 果 四 核 就 创建 4 个 进程 
def myProcess(): 
pool - ProcessPoolExecutor (max workers-2) 
pool.submit (myThread, datetime.datetime.now()) 
pool.submit (myThread, datetime.datetime.now()) 


if name == ' main ': 





myProcess() 


在 上 述 代 码 中 ， 创 建 了 进程 ProcessPoolExecutor 和 线程 ThreadPoolExecutor, $E 
中 在 每 个 进程 中 又 创建 了 两 个 线程 。 


下 面 简单 讲述 一 下 concurrent futures 属性 和 方法 。 


* Executor: Executor 是 一 个 抽象 类 ， 它 不 能 被 直接 使 用 。 为 具体 的 异步 执 
行 定义 了 基本 的 方法 : ThreadPoolExecutor 和 ProcessPoolExecutor 继承 了 
Executor， 分 别 被 用 来 创建 线程 池 和 进程 池 的 代码 。 

e 创建 进程 和 线程 之 后 ，Executor 提供 了 submit) fe map) 方法 对 其 操作 。 
submit() 和 map) 最 大 的 区 别 是 参数 类 型 ，map() 的 参数 必须 是 列表 、 元 组 和 
迭代 器 的 数据 类 型 。 

e Future: 可 以 理解 为 一 个 在 未 来 完成 的 操作 ， 这 是 异步 编程 的 基础 。 通 常情 况 
下 ， 我 们 执行 IO 操作 和 访问 URL 时 ， 在 等 待 结果 返回 之 前 会 产生 阻塞， 
CPU 不 能 做 其 他 事情 ， 而 Future 的 引入 帮助 我 们 在 等 待 的 这 段 时 间 可 以 完成 
其 他 的 操作 。 


156 


第 13 章 项 目 实战 : A BXUJESB ——QQ 音乐 


13.9 PARER 


RECAE, EREA ERRE A — Z AKUCTBSERIERUE, ixdéft 
单 进 程 单 线程 的 情况 下 运行 的 。 如 果 将 这 26 次 循环 分 为 26 个 进程 同时 执行 ， 每 个 进 
程 只 需 执行 对 应 的 字母 分 类 ， 假 设 执行 一 个 分 类 的 时 间 相 同 ， 那 么 多 进程 并 发 的 效率 
是 单 进程 的 26 倍 。 

除了 运用 多 进程 之 外 ， 项 目 代码 大 部 分 是 IO 密集 型 的 ， 那 么 在 每 个 进程 下 使 用 
多 线程 也 可 以 提高 每 个 进程 的 运行 效率 。 我 们 知道 歌手 列表 页 是 通过 两 层 循环 实现 的 ， 
第 一 层 是 循环 每 个 分 类 字母 ， 现 将 每 个 分 类 字母 作为 一 个 单独 进程 处 理 ; 第 二 层 是 循 
环 每 个 分 类 的 歌手 总 页 数 ， 可 将 这 个 循环 使 用 多 线程 处 理 。 假 设 每 个 进程 使 用 10 条 
线程 (线程 数 可 自行 设 定 , 具体 看 实际 需求 ) ， 那 么 每 个 进程 的 效率 也 相对 提高 10 倍 。 

分 布 式 策略 考虑 的 因素 有 网 站 服务 器 负载 量 、 网 速 快慢 、 硬 件 配 置 和 数据 库 最 大 
连接 量 。 举 个 例子 , MEREANA 1000 万 数据 ， 从 数据 量 分 析 ， 当 然 进程 和 线程 越 多 ， 
疏 取 的 速度 越 快 。 但 往往 忽略 了 网 站 服务 器 的 并 发 量 ， 假 设 设 定 10 个 进程 ， 每 个 进 
程 200 条 线程 , 每 秒 并 发 量 为 200X 10=2000, 若 网 站 服务 器 并 发 量 远 远 低 于 该 并 发 量 ， 
在 请 求 网 站 的 时 候 , 就 会 出 现 卡 死 的 情况 , 导致 请 求 超时 (即使 对 超时 做 了 相应 处 理 ) ， 
无 形 之 中 增加 等 待 时 间 。 除 此 之 外 ， 进 程 和 线程 越 多 ， 对 运行 程序 的 系统 的 压力 越 大 ， 
若 涉及 数据 入 库 ， 还 要 考虑 并 发 数 是 否 超出 数据 库 连 接 数 。 

根据 上 述 分 布 式 策略 ， 在 music_db.py 中 添加 代码 如 下 





def myThread (genre) : 
# 每 个 字母 分 类 的 歌手 列表 页 数 
url = 'https://c.y.qq.com/v8/fcg-bin/v8.fcg?channel- 
singer&page-list& 
key-all all $s&pagesize-100&pagenum-$s&loginUin-0&hostUin- 
O&format-jsonp' $(genre, 1) 
r — session.get(url, headers-headers) 
pagenum = r.json()['data']['total page'] 
page list - [x for x in range (pagenum)] 
+ 设置 线程 数 
thread number = 10 
# 将 每 个 分 类 总 页 数 平均 分 给 线程 数 


list interval = math.ceil(len(page list) / thread number) 
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+ 设置 线程 对 象 
Thread = ThreadPoolExecutor (max workers-thread number) 
for index in range(thread number): 
+ 计算 每 条 线程 应 执行 的 页 数 
start num = list interval * index 
if list interval * (index * 1) «- len(page list): 
end num = list interval * (index + 1) 
else: 
end num - len(page list) 
# 每 个 线程 各 自 执行 不 同 的 歌手 列表 页 数 
Thread.submit(get genre singer, genre, 
page list[start num: end num]) 
# 多 进程 
def myProcess(): 
with ProcessPoolExecutor (max workers-26) as executor: 
for i in range(65, 90): 
+ 创建 26 个 进程 ， 分 别 执行 A ~ z 分 类 
executor.submit (myThread, chr(i)) 
+ 主 程序 运行 


if name -- ' main ': 





myProcess() 
代码 中 定义 了 myProcess() 和 myThreadQ 方法 函数 ， 分 别 实现 多 进程 和 多 线程 。 


o 多 进程 myProcess() 函数 : 主要 是 循环 字母 A 一 Z, 将 每 个 字母 独立 创建 一 个 进 
程 ， 每 个 进程 执行 的 方法 函数 是 myThread()， 参 数 是 当前 的 分 类 字母 。 

e 多 线程 myThread() 函数 : 首先 根据 传 入 参数 获取 当前 分 类 的 歌手 总 页 数 ， 然 
后 根据 得 到 的 总 页 数 和 设 定 的 线程 数 计算 每 条 线程 应 执行 的 页 数 ， 最 后 遍历 
设 定 线程 数 ， 让 每 条 线程 执行 相应 的 页 数 。 例 如 总 页 数 100 页 ，10 条 线程 ， 
每 条 线程 应 执行 10 页 ， 第 一 条 线程 执行 0 ~ 10 页 ， 第 二 条 线程 执行 10 ~ 20 
页 ， 以 此 类 推 。 线 程 调用 的 方法 函数 是 get_genre_ singer()， 该 方法 函数 是 13.4 
节 实现 的 功能 。 


在 实现 分 布 式 聆 虫 的 时 候 ， 必 须 注意 的 是 : 


(1) 全 局 变量 不 能 放 在 让 _name “一 main ' 中 ， 因 为 使 用 多 进程 的 时 候 ， 
新 开 的 进程 不 会 在 此 获取 数据 。 
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(2) 使 用 SQLalchemy 入 库 最 好 重新 创建 一 个 数据 库 连 接 ， 如 果 多 个 线程 和 进 
程 共同 使 用 一 个 连接 ， 就 会 出 现 异常 。 

(3) 分 布 式 策略 最 好 在 程序 代码 的 最 外 层 实现 。 例 如 在 项 目 中 ，get_singer_ 
songs) 方法 函数 里 有 两 个 循环 ， 不 建议 在 此 使 用 分 布 式 处 理 ， 在 代码 底层 实现 分 布 式 
不 是 不 可 行 ， 只 是 代码 变动 太 大 ， 而 且 考 虑 的 因素 较 多 ， 代 码 维护 相对 较 难 。 


13.10 本 章 小 结 


本 章 以 QQ 音乐 为 息 取 对 象 ， 爬 取 范 围 是 全 站 的 歌曲 信息 ， 扑 取 方 式 在 歌手 列表 
获取 每 一 位 歌手 的 全 部 歌曲 。 如 果 怜 取 的 数量 较 大 ， 就 使 用 异步 编程 实现 分 布 式 爬 虫 
开发 ， 可 提高 玲 虫 效率 。 读 者 应 重点 掌握 以 下 内 容 : 

1. 项 目 实现 的 功能 

(1) 歌曲 下 载 download(songmid): 怜 虫 最 底层 的 功能 ， 也 是 爬虫 最 核心 的 功能 。 

(2) 歌手 和 歌曲 信息 get singer songs(singermid): 将 歌手 的 歌曲 信息 入 库 和 歌 
曲 下 载 。 

(3) 分 类 歌手 列表 get_genre_singer(key, page list): 获取 单一 字母 分 类 的 全 部 歌 
手 和 歌曲 信息 。 

(4) 全 站 歌手 列表 get all singer): 获取 全 站 歌手 和 歌曲 信息 。 

CS) 数据 存储 insert data(song dict): 将 怜 取 的 歌手 和 歌曲 信息 入 库 处 理 。 

(6) 多 进程 myProcess0: 每 个 字母 分 类 创建 一 个 单独 进程 运行 。 

(7) 多 线程 myThread(genre): 每 个 进程 使 用 多 线程 疏 取 数据 。 

2. 分 布 式 策略 考虑 的 因素 


分 布 式 策略 考虑 的 因素 有 网 站 服务 器 负载 量 、 网 速 快慢 、 硬 件 配置 和 数据 库 最 大 
连接 量 。 举 个 例子 ， 比 如 疏 取 某 个 网 站 1000 万 数据 ， 从 数据 量 分 析 ， 当 然 进程 和 线 
程 越 多 ， 疏 取 的 速度 越 快 。 但 往往 忽略 了 网 站 服务 器 的 并 发 量 ， 假 设 设 定 10 个 进程 ， 
每 个 进程 200 条 线程 ， 每 秒 并 发 量 为 200X 10=2000， 若 网 站 服务 器 并 发 量 远 远 低 于 
该 并 发 量 ， 在 请 求 网 站 的 时 候 ， 就 会 出 现 卡 死 的 情况 ， 导 致 请 求 超时 《即使 对 超时 做 
了 相应 处 理 ) ， 无 形 之 中 增加 等 待 时 间 。 除 此 之 外 ， 进 程 和 线程 越 多 ， 对 程序 运行 的 
系统 的 压力 越 大 ， 若 涉及 数据 入 库 ， 还 要 考虑 并 发 数 是 否 超出 数据 库 连 接 数 。 
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3. 实现 分 布 式 爬 虫 的 注意 事项 

COD 全 局 变量 不 能 放 在 并 name  —' main ' 中 ， 因 为 使 用 多 进程 的 时 候 ， 
新 开 的 进程 不 会 在 此 获取 数据 。 

(2) 使 用 SQLalchemy 入 库 最 好 重新 创建 一 个 数据 库 连 接 ， 如 果 多 个 线程 和 进 
程 共同 使 用 一 个 连接 ， 就 会 抛 出 异常 。 

G) 分 布 式 策略 最 好 在 程序 代码 的 最 外 层 实现 。 例 如 在 项 目 中 ，get_singer_ 
songs) 方法 函数 里 有 两 个 循环 ， 不 建议 在 此 使 用 分 布 式 处 理 ， 在 代码 底层 实现 分 布 式 
不 是 不 可 行 ， 只 是 代码 变动 太 大 ， 而 且 考 虑 的 因素 较 多 ， 代 码 维护 相对 较 难 。 








row. 是 示 本 章 项 目 仅 用 于 爬虫 教学 ， 并 无 违反 版 权 法 规 之 意 ， 请 读者 注意 
[s] XE 7TN 


We 自觉 树立 版 权 保 护 意 识 。 
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14.1 


项 目 实战 : 爬虫 软件 一 一 
淘宝 商品 信息 


分 析 说 明 





对 了 





F 一 个 完整 的 朴 虫 项 目 来 说 ， 完 成 功能 开发 仅仅 是 完成 了 主要 功能 ， 不 可 能 直 


接 将 代码 交付 给 客户 ， 让 客户 自己 运行 ， 而 且 源 代码 没有 封装 处 理 ， 很 容易 遭 到 修改 


和 破坏 。 


为 了 提高 用 户 体验 和 保护 源 代码 的 完整 ， 大 多 数 仆 虫 主要 以 软件 的 形式 交付 


给 客户 使 用 。 其 中 最 为 典型 的 是 抢 票 软件 ， 这 类 软件 的 原理 是 在 礁 虫 的 基础 上 以 软件 
为 载体 供用 户 使 用 。 本 项 目 在 第 12 章 的 基础 上 进一步 完善 和 扩展 ， 主 要 讲述 如 何以 
软件 形式 实现 淘宝 商品 信息 开发 。 
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14.2 GUI 库 介 绍 





Python 提供 了 多 个 图 形 开发 界面 的 库 ， 常 用 的 GUI EA: 


Tkinter (也 叫 Tk 接 口 ) 是 Tk 图 形 用 户 界面 工具 包 标 准 的 Python 接口 。Tk 
是 一 个 轻 量 级 的 跨 平 台 图 形 用 户 界 面 (GUI) 开发 工具 ， 可 以 运行 在 大 多 数 
UNIX 平台 、Windows 系统 和 Mac 系统 中 。 

wxPython 是 Python 语言 的 一 套 优 秀 的 GUI 图 形 库 ， 允 许 Python 程序 员 很 方 
便 地 创建 完整 的 、 功 能 键 全 的 GUI 用 户 界面 。wxPython 是 作为 优秀 的 跨 平台 
GUI 库 ， 以 wxWidgets 的 Python 封装 和 Python 模块 的 方式 提供 给 用 户 。 

PyQt 是 Qt 库 的 Python 版 本 。PyQt3 支持 Qtl 到 Qt3，PyQt4 支持 Qt4，PyQt5 
支持 Qt5。PyQt 的 首次 发 布 是 在 1998 年 ， 当 时 叫 作 PyKDE， 因 为 那 时 SIP 和 
PyQt 没有 分 开 。PyQt 是 用 SIP 写 的 ， 提 供 GPL 版 和 商业 版 。 

Kivy 是 一 个 开源 工具 包 ， 是 能 够 使 用 相同 源 代码 创建 的 程序 ， 并 且 可 以 跨 平 
台 运行 。 它 主要 关注 创新 型 用 户 界 面 开发 ， 如 多 点 触摸 应 用 程序 。Kivy 还 提 
供 一 个 多 点 触摸 鼠标 模拟 器 。Kivy 当前 支持 的 平台 包括 Linux、Windows、 
Mac 和 Android， 拥 有 能 够 处 理 动画 、 缓 存 、 手 势 和 绘图 等 功能 。Kivy 还 内 置 
许多 用 户 界 面 控 件 ， 如 按钮 、 摄 影 机 、 表 格 、Slider 和 树 形 控件 等 。 

Flexx 是 一 个 纯 Python 工具 包 ， 用 来 创建 图 形 化 界面 应 用 程序 ， 使 用 Web 技 
术 进 行 界面 的 泻 染 。 可 以 用 Flexx 来 创建 桌面 应 用 ， 同 时 也 可 以 导出 一 个 应 用 
到 独立 的 HTML 文档 。 因 为 使 用 纯 Python 开发 ， 所 以 Flexx 是 跨 平 台 使 用 的 。 
只 需要 有 Python 和 浏览 器 ，Flexx 就 可 以 运行 。 


在 本 项 目 中 ， 主 要 讲解 如 何 使 用 PyQt5 实现 软件 开发 。 





14.3 PyQt5 安装 及 环境 搭建 


PyQt5 是 一 套 绑 定 QtS 的 应 用 程序 框架 ， 由 Python 语言 实现 ， 已 经 有 超过 620 个 
类 和 6000 个 函数 与 方法 。PyQts 是 一 个 运行 在 所 有 主流 操作 系统 上 的 多 平台 组 件 ， 
包括 UNIX. Windows 和 Mac OS. PyQt5 是 双重 许可 的 ， 开 发 者 可 以 选择 GPL 和 商 


业 许 可 。 
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PyQt5 可 以 使 用 pip 安装 : 








pip install PyQt5 





完成 PyQt5 的 安装 后 ， 接 着 安装 图 形 界面 的 开发 工具 ， 这 是 能 快速 开发 图 形 界 面 
的 辅助 工具 。 如 果 对 PyQt5 比较 熟悉 ， 可 以 使 用 Python 纯 代 码 开发 图 形 界面 。 

开发 工具 有 Qt Creator 与 Qt Designer， 两 者 都 能 实现 图 形 界面 的 开发 。 其 中 ， 后 
3E RE UE BA XD RE F^ EN” , Qt. Creator 包 括 项 目 生成 向 导 、 高 级 的 C++ 代码 编辑 器 、 
浏览 文件 及 类 的 工具 ， 集 成 了 Qt Designer、Qt Assistant、Qt Linguist、 图 形 化 的 GDB 
调试 前 端 和 qmake 构建 工具 等 。 

安装 Qt Creator 可 以 到 官方 网 站 下 载 exe 安装 包 Chttps://wwwl.qtio/download/) , 
下 载 安装 包 前 需要 注册 和 填写 个 人 信息 才 行 。 

Qt Designer 仅 支持 在 Windows 安装 ， 并 且 可 以 使 用 pip 安装 : 








pip install PyQt5-tools 





本 书 以 Qt Designer 作为 图 形 界 面 开 发 工具 ， 安 装 Qt Designer 后 ， 可 以 在 Python 
安装 目录 \Lib\site-packages\pyqt5-tools 找到 designer.exe， 双 击 并 打开 Qt Designer， 如 
图 14-1 所 示 。 





名 New Form - Qt Designer 


Dialog with Butt... 
Dialog with Butt... 
Dialog without B... 
Main Window 


Widget 
ia 





pyqt5-tools 


Bi» X (F) > Python > Lib > site-packages > pyqt5-tools 





名 称 修改 日 其 

C designer.exe 2017/9/20 23:10 

dumpcpp.exe 2017/9/20 23:10 
"| dumpdoc.exe 2017/9/20 23:10 








图 14-1 Qt Designer 
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安装 PyQt5 和 Qt Designer (Qt Creator) 之 后 ， 接 下 来 在 PyCharm 搭建 开发 环境 。 








为 什么 要 在 PyChram 搭建 开发 环境 ， 由 于 我 们 使 用 Qt Designer (Qt Creator) 创建 并 
生成 图 形 界面 文件 ， 文 件 以 也 HERZ, E Python 中 无 法 识别 该 文件 内 容 ， 搭 建 环 




















境 的 目的 是 将 ui 文件 转换 成 py 文件 。 


不 同 的 PyChram 版 本 配置 的 步骤 有 所 
PyChram 版 本 如 图 14-2 所 示 。 


























区 别 ， 以 Windows 的 PyCharm 为 例 ， 


PyCharm 


PROFESSIONAL 2017.2 





图 14-2 PyChram 版 本 信息 


配置 步骤 如 下 : 
CX) 单 击 “File” 里 面 的 “Settings”， 
找到 “Tools” 里 面 “External 
Tools”， 如 图 14-3 所 示 。 



































CE» 单 击 “Tools — External Tools" T 
方 的 “+”， 新 建 一 个 Tool， 输 入 
信息 ， 如 图 14-4 所 示 。 

















fi Settings 
a || Tools » External Tools 
Keymap 十 一 人 日 


> Project: pywin 

> Build, Execution, Deployment 
> Languages & Frameworks © 
~ Tools 


Web Browsers 





File Watchers a | 














图 14-3 External Tools 











从 图 14-4 中 看 到 ，Program 的 内 容 是 Python 安装 目录 的 python.exe， 这 是 Python 
解释 器 ; Parameters 是 将 ui 文件 转换 为 py 文件 的 命令 行 ，Working directory 是 转换 后 





生成 文件 的 保存 路 径 。 
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Show in 


E Mainmenu [7 Editor menu EZ Project views [7] Search results 


口 Show console when a message is printed to standard output stream [C] Show console when a message is printed to standard error stream 
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& Edit Tool x 
Name: PyUIC Group: [External Tools ~ 
Description: 
Options 
EZ Synchronize files after execution E Open console Output Filters.. 


















































Tool settings 
Program: FAPython\python.exe | To i —— [Ez] [insert mano... 
Parameters: -m PyQt5.uic.pyuic $FileName$ -o $FileNameWithoutbxtension$.py - Hu Insert macro... 
Working directory: [SFileDirg | | Insert macro... 
o OK Cancel 




















图 14-4 配置 Tools 


配置 PyChram 主要 是 将 ui 文件 快速 转换 成 py 文件 ， 不 是 一 定 要 配置 在 PyChram 
才能 转换 文件 ， 也 可 以 在 CMD (终端 ) 界面 运行 Parameters 中 的 命令 行 来 实现 转换 。 

完成 了 PyQt5 和 Qt Designer (Qt Creator) 的 安装 ， 并 在 PyChram 配置 了 文件 转 
换 工 具 ， 接 下 来 开始 讲解 软件 开发 。 





144 软件 界面 开发 





软件 界面 开发 由 Qt Designer 
完成 ， 打 开 Qt Designer， 可 以 看 
到 一 个 新 建 窗口 的 界面 ， 有 5 种 














功能 模板 可 供 选择 ， 如 图 14-5 
虽然 新 建 窗口 提供 5 种 功 
能 模板 ， 但 实际 上 只 有 3 种 不 
同类 型 的 模板 ， 分 别 是 Dialog、 
MainWindow 和 Widget， 三 者 作 
jr: 


























Œ New Form - Qt Designer. x 





~ templates\forms 

Dialog with Butt... 
Dialog with Butt... 
Dialog without B... 











[M Show this Dialog on Startup 
[eee ] 


Exbedded Design 
Device: ME 
Screen Size: [Default size = 











Open... 








Recent ~ 




















图 











14-5 Qt Designer 新 建 窗口 
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(1) MainWindow 是 主 界面 ， 一 个 窗口 是 父 / 子 hiearchy 的 顶部 ， 通 常 显示 标题 
栏 和 边框 。 底 层 窗口 系统 (Windows, KDE, GNOME 等 ) 将 为 窗口 提供 策略 ， 如 标 
题 栏 /边框 样式 、 布 局 和 焦点 等 。 

(2) Widget 是 小 部 件 ， 是 屏幕 上 的 一 个 矩形 区 域 ， 用 于 显示 和 用 户 交互 ， 包 括 
按钮 、 滑 块 、 视 图 、 对 话 框 和 窗口 等 。 所 有 窗口 小 部 件 将 在 屏幕 上 显示 某 些 内 容 ， 许 
多 窗口 小 部 件 也 将 接受 来 自 键盘 或 鼠标 的 用 户 输入 。“widget” 一 词 来 自 UNIX， 在 
Windows 中 称 为 “控件 ”。 

(3) Dialog 为 对 话 框 ， 通 常 是 临时 的 ， 可 以 设置 不 同 的 标题 栏 外 观 ， 主 要 用 于 
通知 或 收集 输入 窗口 ， 并 且 底 部 或 右 侧 通常 具有 OK, Cancel 等 按钮 。 

在 此 ， 选 择 并 进入 Dialog 模板 ， 如 图 14-6 所 示 。 












































Œ Qt Designer 一 口 x 

Eile Edit Form View Settings Window Help 

ARA mnssrfsssm 

ER ]— [SM] — nes Object Inspector 

T Object Class 
f Dialog QDialog 

















[E Dock Widget Property Editor 
Input Widgets 

国 Combo Box 

[| Font Combo Box 











g Line Edit 
国 Text Edit 

[ul Plain Text Edit 
Spin Box 


[© Time Edit 

|? Date Edit 

fÔ Date/Time Edit a 

9 Dial Receiver 
Horizontal Scroll Bar 








Vertical Scroll Bar 4 
l+ Horizontal Slider 
宁 Vertical Slider 
Key Sequence Edit S Signal/Slot Editor | Action Editor 








图 14-6 Qt Designer 设计 软件 界面 


从 图 14-6 中 可 以 看 到 ， 除 了 正中 间 区 域 是 软件 设计 的 界面 之 外 ， 还 有 为 以 下 4 
个 区 域 。 


。 区 域 1: 控件 区 ， 软 件 的 功能 控件 都 在 此 区 域 生成 ， 可 以 拖 来 控件 到 模板 上 实 
现 可 视 化 软件 设计 。 
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数 。 


件 进 行 开发 设计 ， 如 图 14-7 所 示 。 


控件 ， 关 键 字 是 Plain Text Edit 文本 框 控 


件 ， 


文件 名 为 taobao_vui， 文 件 路 径 为 FTB\ 
taobao_v.ui。 [ xX& | 


第 14 章 项 目 实战 ; 礁 虫 软件 一 一 淘宝 商品 信息 





e ”区域 2: 软件 的 目录 结构 ， 显 示 模板 中 所 有 控件 的 类 型 ， 能 帮助 设计 者 快速 找 
到 控件 。 

e 区域 3: 控件 属性 区 ， 主 要 修改 控件 的 属性 。 

e ”区域 4: 信号 (Signal) /楼 (Slot) ， 信 号 和 构 是 Qt 编程 中 对 象 间 的 通信 机 制 。 
简单 地 说 ， 就 是 单 击 按钮 时 候 所 触发 的 事件 。 单 击 按钮 称 之 为 信号 ， 触 发 的 
事件 称 之 为 构 。 

接 下 来 开始 设计 息 虫 软件 界面 。 

通过 第 12 章 可 知 ， 淘 宝 商品 爬虫 可 

















此 ， 疏 虫 软件 根据 这 两 个 设置 条 | uus 


采集 页 数 用 的 是 ComboBox 下 拉 框 


采集 按钮 是 Push Button 控件 ， 保 存 














图 14-7 爬虫 软件 界面 设计 
下 一 步 是 将 ui 文件 转换 成 py 文件 ， 在 PyChram 中 打开 FATB, TB 文件 夹 里 只 有 





taobao v.ui 文件 ， 选 中 PyChram 里 的 taobao v.ui 文件 并 右 击 ， 找 到 External Tools, 
单 击 PyUIC。 





代码 运行 完成 之 后 ， 在 同一 目录 下 可 以 看 到 其 自动 生成 的 taobao_v.py 文件 ， 如 


图 14-8 所 示 。 


ÍĒ taobao v.py 
[à taobao v.ui 
ms 
BD PyUIC 


4  F:WythonWython.exe -m PyQt5.uic.pyuic taobao v.ui -o taobao v. py 
* 


gj Process finished with exit code 0 











[smi 





图 14-8. ui 文件 转换 为 py 文件 
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bs 


查看 taobao vpy, IV T: 


from PyQt5 import QtCore, QtGui, QtWidgets 
class Ui Dialog (object): 


def 


def 


setupUi (self, Dialog): 

Dialog.setObjectName ("Dialog") 

Dialog.resize(513, 518) 

self.pushButton - QtWidgets.QPushButton (Dialog) 
self.pushButton.setGeometry (QtCore.QRect (110, 440, 112, 34)) 
self.pushButton.setObjectName ("pushButton") 
self.plainTextEdit - QtWidgets.QPlainTextEdit (Dialog) 
self.plainTextEdit.setGeometry (QtCore.QRect(110, 140, 321, 261) 
self.plainTextEdit.setObjectName ("plainTextEdit") 
self.label - QtWidgets.QLabel (Dialog) 
self.label.setGeometry (QtCore.QRect(40, 140, 61, 31)) 
self.label.setObjectName ("label") 

self.comboBox - QtWidgets.QComboBox (Dialog) 
self.comboBox.setGeometry (QtCore.QRect(110, 50, 151, 41)) 
self.comboBox.setObjectName ("comboBox") 
self.comboBox.addItem("") 

self.comboBox.addItem("") 

self.comboBox.addItem("") 

self.comboBox.addItem("") 

self.label 2 = QtWidgets.QLabel (Dialog) 

self.label 2.setGeometry(QtCore.QRect(20, 50, 81, 41)) 
self.label 2.setObjectName ("label 2") 





self.retranslateUi (Dialog) 
QtCore.QMetaObject.connectSlotsByName (Dialog) 


retranslateUi(self, Dialog): 

translate - QtCore.QCoreApplication.translate 
Dialog.setWindowTitle( translate("Dialog", "Dialog")) 
self.pushButton.setText( translate("Dialog", " RÆ ")) 
self.label.setText( translate("Dialog"，" 关键 字 ") ) 
self.comboBox .setItemText(0，_translate("Dialog"，" 前 5 页 ")) 
self.comboBox.setItemText(1,  translate("Dialog", " 前 10 页 ")) 
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Self. comboBox .setItemText (2, translate("Dialog", " 前 15 页 ")) 
self.comboBox.setItemText(3,  translate("Dialog", " Bi 20 H ")) 
self.label 2.setText( translate("Dialog", " 采集 页 数 ") ) 


14.5 MVC 一 一 视图 





软件 开发 应 遵从 MVC 结构 设计 ， 下 面 简单 介绍 一 下 MVC 结构 。 


MVC 全 名 是 Model View Controller， 是 模型 (Model) 一 视图 (View) 一 控制 器 
(Controller) 的 缩写 ， 是 一 种 软件 设计 典范 ， 用 一 种 业务 逻辑 、 数 据 、 界 面 显示 分 离 
的 方法 组 织 代 码 ， 将 业务 逻辑 聚集 到 一 个 部 件 里 面 ， 在 改进 和 个 性 化 定制 界面 及 用 户 
交互 的 同时 ， 不 需要 重新 编写 业务 逻辑 。MVC 被 独特 的 发 展 起 来 ， 用 于 在 一 个 逻辑 
的 图 形 化 用 户 界面 的 结构 中 映射 传统 的 输入 、 处 理 和 输出 功能 。 


在 项 目 中 ， 我 们 已 经 得 到 taobao_v.py 文件 ， 在 taobao_vpy 文件 所 在 目录 下 创建 
taobao_vc.py 文 件 , 该 文件 主要 是 将 taobao_v.py 界面 以 Python 程序 运行 方式 呈现 出 来 。 
taobao_vc.py 代码 如 下 : 


from PyQt5 import QtCore, QtGui, QtWidgets 

# WA taobao.py lf] Ui Dialog 

from taobao import Ui Dialog 

import sys 

# 继承 taobao.py 的 Ui Dialog 

class taobao control(QtWidgets.QMainWindow, Ui Dialog): 

def _ init (self, parent-None): 

super(taobao control, self). init (parent) 
self.setupUi (self) 


if name -- " main ": 





app = QtWidgets.QApplication(sys.argv) 
taobao control = taobao control () 
taobao control.show() 
sys.exit(app.exec ()) 
taobao vc.py 继承 了 taobao v.py 里 的 Ui Dialog， 两 个 文件 共同 实现 一 个 软件 
的 界面 开发 。 因 为 taobao_v.py 使 用 Qt Designer 设计 界面 并 通过 PyCharm 外 部 工具 
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PyUIC 将 其 转化 成 py 源 文 件 。 转 换 后 的 py 文件 只 是 一 个 静态 软件 界面 ， 因 此 还 需要 
编写 对 象 间 的 通信 机 制 ( 信 号 / 槽 ) ， 创 建 taobao vc.py 的 目的 是 编写 对 象 间 的 信号 / 
槽 ， 将 信号 / 槽 和 软件 设计 在 不 同文 件 中 实现 。 其 主要 原因 是 ， 每 次 更 新 界面 设计 时 ， 
更 新 的 代码 会 覆盖 原 有 的 界面 代码 ， 如 果 将 信号 / 槽 与 软件 界面 代码 写 到 同一 个 文件 ， 
每 次 更 新 软件 设计 ， 开 发 者 都 需要 重新 编写 对 应 的 信号 / 槽 ， 这 样 对 维护 和 修改 极其 
不 便 。 因 此 ， 将 两 者 在 不 同文 件 中 实现 可 以 将 界面 设计 和 逻辑 开发 分 离 。 


在 taobao_vc.py 中 ， 对 采集 按钮 添加 响应 事件 ， 代 码 如 下 : 


from PyQt5 import QtCore, QtGui, QtWidgets 

# SA taobao.py lf] Ui Dialog 

from taobao v import Ui Dialog 

# 导入 逻辑 功能 ，MVC 里 面 的 C 

from taobao c import get info 

import sys 

# 继承 taobao.py 的 Ui Dialog 

class taobao control (QtWidgets.QMainWindow, Ui Dialog): 

def | init (self, parent=None): 

super(taobao control, self). init (parent) 
self.setupUi (self) 
# 添加 响应 事件 


self.pushButton.clicked.connect (self.collect data) 


def collect data(self): 

# 获取 多 个 关键 字 ， 返 回 关键 字 列表 

get keyword list = self.plainTextEdit.toPlainText(). 
split('Mn') 

# 获取 采集 的 页 数 

get page = (self.comboBox.currentIndex()-*1)*5 

# 每 一 页 的 数据 要 请 求 44 次 

get page = get page*44 

get info(get keyword list, get page, []) 

print ('Done') 


if name == " main ^": 





app = QtWidgets.QApplication(sys.argv) 


taobao control = taobao control () 
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taobao control.show() 


sys.exit(app.exec ()) 


上 述 代 码 中 添加 了 按钮 的 响应 事件 ， 单 击 按钮 就 会 触发 collect data) 函数 ， 该 函 
数 先 获 取 并 处 理 用 户 在 软件 界面 上 输入 的 数据 ， 然 后 调用 get_info0 函数 ， 疏 取 淘 宝 
的 商品 信息 ，get_info0 函数 是 MVC 里 控制 器 的 函数 ， 具 体内 容 会 在 14.6 节 讲 解 。 

从 整个 视图 功能 分 析 ， 视 图 由 taobao_v.py 和 taobao ve.py 共同 实现 。 前 者 是 由 
Qt Designer 设计 界面 并 通过 PyCharm 外 部 工具 PyUIC 将 其 转化 成 py 源 文件 ， 主 要 承 
担 了 软件 的 控件 布局 和 命名 ; 后 者 是 继承 前 者 , 主要 在 前 者 的 基础 上 编写 通信 机 制 ( 信 
号 / 模 ) 。 这 开发 设计 可 使 界面 设计 和 逻辑 开发 分 离 ， 便 于 软件 修改 和 维护 。 





14.6 MVC 控制 器 

回顾 第 12 章 可 以 知道 ， 整 个 项 目 代码 都 是 在 一 个 py 文件 中 完成 的 。 在 此 ， 我 们 
将 代码 功能 拆 分 ， 使 其 符合 MVC 结构 。 控 制 器 是 整个 MVC 的 枢纽 部 分 ， 承 担 了 视 
图 和 模型 衔接 和 通信 的 功能 。 在 14.5 节 ， 代 码 调用 了 get_info0 函数 ， 该 函数 用 于 实 
现 控制 器 和 视图 的 衔接 和 通信 。 


将 控制 器 代码 文件 命名 为 taobao_c.py， 代 码 如 下 : 





import requests 
import json 
import csv 


from taobao m import get auctions info 


def get info(get keyword list, get page, auctions distinct): 
for k in get keyword list: 

+ 新 建 csv 文件 

file name = k + ".csv" 

with open(file name, "w", newline-'') as csvfile: 
writer = csv.writer (csvfile) 
# 写 入 数据 
writer.writerow([' 标题 '，' 价格 '，' 销量 '，' 店铺 '，' 区 域 ']) 


csvfile.close() 
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for p in range(get page): 
url = 'https://s.taobao.com/api?callback-jsonp804&m- 
customized&q-$s&s-$s' $(k, p) 
r = requests.get (url) 
response - r.text 
response = response.split('(')[1].split(') ') [0] 
response dict - json.loads (response) 
response auctions - response dict['API. 
CustomizedApi']['itemlist']['auctions'] 
* 数据 存储 
auctions distinct = get auctions info(response_ 
auctions,file name,auctions distinct) 


函数 get info) 主要 用 于 创建 CVS 文件 、 数 据 抓 取 和 调用 函数 get_auctions_info() 
对 数据 入 库 。 调 用 函数 get_auctions_info() 是 衔接 模型 部 分 ， 用 于 实现 控制 器 和 模型 
之 间 的 通信 。 


14.7 MVC 一 一 模型 





在 14.6 节 看 到 ， 控 制 器 的 代码 调用 函数 get auctions info0， 该 函数 主要 对 传递 
的 参数 实现 数据 存储 。 将 数据 存储 〈 模 型 ) 代码 文件 命名 为 taobao m.py， 代 码 如 下 : 


import csv 
def get auctions info(response auctions info, file name, 
auctions distinct): 
with open(file name, "a", newline-'') as csvfile: 
* 生成 csv 对 象 ， 用 于 写 入 csv 文件 
writer = csv.writer (csvfile) 
for i in response auctions info: 
+ 判断 数据 是 否 已 经 记录 
if str(i['raw title']) not in auctions distinct: 
# 写 入 数据 
writer.writerow([i['raw title'], i['view price'], 
i['view sales'], i['nick'], 


i['item 1oc']]) 
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auctions distinct.append(str(i['raw title'])) 
csvfile.close() 


return auctions distinct 


从 代码 中 可 以 看 到 ， 函 数 get auctions info() 主要 E Projet ~ OQ x le 
是 将 参数 response_auctions_info £j X CSV 文件 ， 并 将 


每 次 写 入 的 信息 记录 在 参数 auctions distinct 中 ， 最 后 fl tooteo coy 


[4 taobao m.py 




















返回 参数 auctions distinct 给 控制 器 。 控 制 器 再 次 调用 Í taobao vpy 
get auctions info() 的 时 候 ， 将 上 一 次 返回 的 auctions - [È taobao v.ui 
— — e 
distinct 在 控制 器 和 模型 之 间 不 停 地 交互 通信 。 

最 终 整 个 项 目的 目录 如 图 14-9 所 示 。 图 14-9 项 目 目录 结构 























整个 目录 下 共有 5 个 文件 ， 分 别 介绍 如 下 。 


e  taobao cpy: MVC 里 面 的 控制 器 部 分 ， 主 要 衔接 视图 和 模型 。 

e taobao mpy: MVC 里 面 的 模型 部 分 ， 主 要 实现 数据 存储 。 

e  taobao v.py 和 taobao_vc.py: 共同 组 成 MVC 的 视图 部 分 ， 后 者 继承 前 者 ， 并 
由 后 者 负责 项 目的 运行 和 启动 。 

e  taobao v.ui: Qt Designer 界面 设计 文件 ， 可 转换 成 taobao_vV.py 文件 。 





14.8 扩展 思路 


到 目前 为 止 ， 项目 已 实现 MVC 结构 化 开发 。 从 用 户 使 用 的 角度 来 看 ， 软 件 功能 
存在 以 下 两 个 问题 : 





CD 软件 界面 过 于 简单 ， 用 户 体验 不 强 。 
(2) 数据 聆 取 速 度 过 慢 ， 关 键 字 过 多 或 页 数 过 多 会 导致 软件 朋 误 。 


解决 思路 : 























CD 在 软件 界面 增加 进度 条 功能 ， 根 据 怜 取 速 度 制定 进度 反馈 。 
(2) 在 界面 中 增加 状态 提示 功能 ， 比 如 网 络 中 断 提示 、 关 键 字 为 空 提 示 等 。 
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(3) 在 逻辑 上 增加 分 布 式 功能 ， 提 高 怜 虫 效率 。 
(4) 软件 界面 美化 ， 设 置 背景 图 、 背 景 颜色 、 按 钮 图 标 等 。 


本 书 到 这 里 只 提供 扩展 和 优化 思路 ， 不 做 过 多 讲解 ， 希 望 读者 能 在 此 基础 上 结合 
整 章 内 容 对 本 项 目 进行 扩展 和 优化 。 





14.9 本 章 小 结 


PyQt5 是 一 套 绑 定 Qt5 的 应 用 程序 框架 ， 由 Python 语言 实现 ， 已 经 有 超过 620 个 
类 和 6000 个 函数 与 方法 。PyQt5 是 一 个 运行 在 所 有 主流 操作 系统 上 的 多 平台 组 件 ， 
包括 UNIX. Windows 和 Mac OS。PyQt5 是 双重 许可 的 ， 开 发 者 可 以 选择 GPL 和 商 
业 许 可 。 

通过 本 章 的 学 习 ， 读 者 应 该 掌握 以 下 内 容 : 


1. PyQt5 的 安装 及 其 环境 搭建 
(1) 安装 PyQt5: pip install PyQt5。 
(2) 安装 Qt Designer: pip install PyQt5-tools。 
(3) 配置 PyChram 环境 。 


2. Qt Designer 模板 说 明 

(1) MainWindow 是 主 界面 ， 一 个 窗口 是 父 / 子 hiearchy 的 项 部， 通常 显示 标题 
栏 和 边框 。 底 层 窗口 系统 (Windows、KDE、GNOME 等 ) 将 为 窗口 提供 策略 ， 如 标 
题 栏 /边框 样式 、 布 局 和 焦点 等 。 

(2) Widget 是 小 部 件 ， 屏 幕 上 的 一 个 矩形 区 域 ， 用 于 显示 和 用 户 交 互 ， 包 括 按 
钮 、 滑 块 、 视 图 、 对 话 框 和 窗口 等 。 所 有 窗口 小 部 件 将 在 屏幕 上 显示 某 些 内 容 ， 许 
多 窗口 小 部 件 也 将 接收 来 自 键 盘 或 鼠标 输入 的 内 容 。“Widget” 一 词 来 自 UNIX, 在 
Windows 上 称 为 “控件 ”。 

(3) Dialog 对 话 框 通常 是 临时 的 ， 可 以 设置 不 同 的 标题 栏 外 观 ， 主 要 用 于 通知 
或 收集 输入 窗口 ， 并 且 通 常 底部 或 右 侧 有 OK. Cancel 等 按钮 。 
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3. MVC 的 概念 

MVC 全 名 是 Model View Controller， 是 模型 (Model) 一 视图 (View) 一 控制 器 
(Controller) 的 缩写 ， 一 种 软件 设计 典范 ， 用 业务 逻辑 、 数 据 、 界 面 显 示 分 离 的 方法 
组 织 代码 ， 将 业务 逻辑 聚集 到 一 个 部 件 里 面 ， 在 改进 和 个 性 化 定制 界面 及 用 户 交互 的 
同时 ， 不 需要 重新 编写 业务 逻辑 。MVC 被 独特 地 发 展 起 来 ， 用 于 在 一 个 逻辑 的 图 形 
化 用 户 界面 结构 中 映射 传统 的 输入 、 处 理 和 输出 功能 。 

4. 项 目 目 录 文 件 

e  taobao c.py: MVC 里面 的 控制 器 部 分 ， 主要 衔接 视图 和 模型 。 

*  taobao mpy: MVC 里 面 的 模型 部 分 ， 主 要 实现 数据 存储 。 


*  taobao vpy fe taobao vc.py: 共同 组 成 MVC 的 视图 部 分 ， 后 者 继承 前 者 ， 并 
由 后 者 负责 项 目的 运行 和 启动 。 


*  taobao v.ui: Qt Designer 界面 设计 文件 ， 可 转换 成 taobao v.py X fF. 


175. 


项 目 实战 : 12306 1835 


15.1 分 析 说 明 


12306 抢 票 是 怜 虫 开发 中 非常 经 典 的 一 个 项 目 。 官 方 为 了 打击 黄牛 围 票 ， 网 站 不 
断 地 更 新 升级 ， 各 类 抢 票 软件 也 不 断 地 修正 更 改 ， 两 者 周而复始 ， 印 证 了 一 句 话 “ 程 
序 员 都 是 在 互相 伤害 ”。 

这 种 抢 票 类 疏 虫 的 开发 思路 与 用 户 在 浏览 器 的 购 票 操作 一 致 ， 只 不 过 是 编写 代码 
来 完成 购 票 流程 ， 可 以 理解 为 通过 程序 来 模拟 用 户 在 浏览 器 上 购买 车 票 。 

在 本 项 目 中 ， 按 照 购 买 火车 票 的 流程 : 用 户 登录 一 查询 车 票 信息 一 选择 班次 一 填 
写 乘 车 人 员 信 息 一 提交 并 生成 订单 ， 制 定 怜 虫 功能 开发 顺序 。 








OD 验证 码 验证 。 
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QD 用 户 登 录 与 验证 。 
(3) 查询 车 票 。 
(4) 预订 车 票 。 
(5) 提交 订单 。 
(6) 生成 订单 。 








15.2 验证 码 验 证 


在 12306 购买 火车 票 的 时 候 ， 首 先 需要 用 户 登录 ， 除 了 需要 输入 账号 、 密 码 之 外 ， 
还 设 有 图 片 验证 码 ， 验 证 码 的 验证 方式 是 根据 图 片 中 的 问题 选择 正确 的 答案 ， 当 验证 
码 和 账号 信息 正确 时 ， 才 能 登录 成 功 。 

在 爬虫 中 实现 登录 功能 ， 首 先 分 析 网 站 的 登录 事件 所 触发 的 请 求 信 息 。 在 
Chrome 浏览 器 中 访问 12306 的 用 户 登 录 界 面 Chttps:/kyfw.12306.cn/otn/login/init) 。 
该 登录 界面 除了 账号 、 密 码 输 入 框 之 外 ， 还 有 一 个 图 片 验证 码 ， 图 片 验证 码 是 由 一 个 
问题 描述 和 8 组 图 片 组 成 的 。 打 开 开发 者 工具 ， 在 登录 界面 输入 账号 、 密 码 并 选择 错 
误 的 验证 码 答案 ， 最 后 单 击 登录 按钮 ， 可 以 看 到 有 两 个 请 求 信息 ， 如 图 15-1 所 示 。 












































Filter Cj Hide data URLs All | 民国 us css img Media Font Doc WS Manifest 





Name x | Headers | Preview Response Cookies Timing 





H captcha-check Y General 








L] login Request URL: https: //kyfw.12306.cn/passport/captcha/captcha-check 
Request Method: POST 

Status Code: 6 200 OK 

Remote Address: 157.255.68.113:443 

Referrer Policy: no-referrer-when-downgrade 


> Response Headers (12) 
> Request Headers (12) 


Y Form Data view source view URL encoded 
answer: 170,112,102,110,248,119,124,45 
login site: E 











rand: sjrand 


15-1 验证 码 验证 





从 图 15-1 可 以 看 到 ， 当 输入 正确 的 账号 、 密 码 并 选择 错误 的 验证 码 答案 登录 后 ， 
会 触发 两 个 POST 请 求 ， 其 中 第 一 个 请 求 链接 是 https://kyfw.12306.cn/passport/captcha/ 
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captcha-check, J URL 组 成 和 响应 内 容 分 析 ， 该 请 求 信 息 的 作用 是 验证 用 户 选择 的 答 
案 与 验证 码 答案 是 否 符合 ， 如 图 15-2 所 示 。 








X Headers | Preview | Response Cookies Timing 


w (result message: “验证 码 校 验 失败 "，result_code: "5") 
result code: "5" 
result_message:“ 验 证 码 校 验 失 败 " 











图 15-2 验证 码 校 验 结果 


从 图 15-1 可 知 ， 验 证 码 校 验 请 求 有 三 个 参数 ， 分 别 是 answer. login site 和 
rand。 单 从 一 次 请 求 信息 是 无 法 找 出 请 求 参 数 的 变化 规律 的 ， 不 妨 重复 多 次 上 述 操 作 ， 
观察 请 求 参 数 的 变化 来 判断 数据 规律 。 通 过 多 次 操作 (输入 正确 的 账号 、 密 码 ， 并 选 
择 错误 而 不 重复 的 验证 码 答案 )， 发现 参数 login_site 和 rand 的 参数 值 是 固定 不 变 的 ， 
而 参数 answer 会 根据 每 次 选择 的 答案 不 同 而 不 断 地 变化 。 

为 了 进一步 找 出 参数 answer 的 变化 规律 ， 尝 试 以 下 方法 : 


(1) 第 一 次 只 选择 第 一 组 图 片 ， 参 数 answer 的 值 为 40,40。 
(2) 第 二 次 只 选择 第 二 组 图 片 ， 参 数 answer 的 值 为 114,35。 
(3) 第 三 次 只 选择 第 三 组 图 片 ， 参 数 answer 的 值 为 192,39。 


(4) 以 此 类 推 ， 第 四 、 第 五 、 第 六 、 第 七 和 第 八 组 图 片 分 别 对 应 257,36、 
42,115、119,107、185,124 和 272,117。 也 就 是 说 ， 每 组 图 片 对 应 一 组 数字 。 





通过 多 次 试验 发 现 ， 同 一 组 图 片 ， 根 据 单 击 位 置 的 不 同 ， 参 数 answer 的 值 随 之 
变化 , 如 第 一 组 图 片 ， 单 击 位 置 分 别 在 左上 方 和 左下 方 ,其 参数 answer 的 值 有 所 不 同 。 
根据 这 样 的 变化 ， 每 组 数字 应 该 代表 一 个 坐标 位 置 ， 每 组 图 片 代表 一 定 的 区 域 范围 
只 要 坐标 位 置 在 图 片 的 区 域 范围 内 ， 这 组 数据 就 代表 这 张 图 片 。 这 种 验证 码 称 之 为 坐 
标 验证 码 ， 这 种 坐标 系 的 验证 码 属于 图 片 验证 码 里 面 的 一 种 类 型 ， 对 于 这 种 验证 码 目 
前 还 没有 很 好 的 解决 方案 ， 只 能 通过 人 为 输入 正确 的 坐标 位 置 来 完成 验证 。 

综合 分 析 ， 可 以 确定 验证 码 里 面 的 8 组 图 片 的 坐标 位 置 《每 组 图 片 的 坐标 位 置 不 
是 唯一 的 ， 只 要 坐标 位 置 在 图 片 的 区 域内 即 可 ) ， 验 证 码 校 验 代码 如 下 : 
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import requests 
4 坐标 参考 : 40, 40, 114, 35, 192, 39, 257, 36, 42, 115, 119,107,185,124,272,117 
code list={ 
'1': 740,40," , 
'2': '114,35,', 
'3': "192,39, ", 
'4': '257,36,', 
"Str Taa, 1135,*, 
"es "119, T01,", 
Mp 7385 124,5, 
"B's "232.137" 
) 
* 创建 会 话 
session = requests.session() 
# 请 求 头 
headers = { 'User-Agent': 
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ' 
'(KHTML, like Gecko) Chrome/63.0.3218.0 Safari/537.36', 
"Referer': 
'https://kyfw.12306.cn/otn/login/init'] 
+ 验证 码 图 片 的 URL 
url = 'https://kyfw.12306.cn/passport/captcha/captcha-image? 
login site-E&module-login&rand-sjrand' 
# 忽略 证 书 验证 
r = session.get(url, headers-headers, verify-False) 
# 下 载 验证 码 图 片 
F = open('code.png', 'wb') 
f.write(r.content) 
f.close() 
# 输入 验证 码 图 片 位 置 ， 每 组 图 片 用 英文 逗号 隔 开 
code = input(" 请 输入 验证 码 : ") 
get code = "" 
for i in code.split(','): 
# 根据 输入 每 组 图 片 的 组 号 获取 对 应 的 坐标 位 置 
get code += code list[i] 
# 验证 码 校 验 
data = ( 
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'answer': get code, 
'login site': 'E', 
'rand': 'sjrand' 


= 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
Session.post(url, data-data) 


print(r.text) 


整 段 代码 实现 了 两 次 请 求 ， 第 一 次 请 求 是 下 载 验 证 码 图 片 ， 第 二 次 请 求 是 对 验证 
码 进行 校 验 。 代 码 细节 如 下 。 





code list: 使 用 字典 数据 格式 ， 主 要 用 于 验证 码 识别 ， 用 户 可 直接 输入 每 组 图 
片 的 组 号 获取 对 应 的 坐标 位 置 。 

session = requests.session(): 创建 一 个 持久 化 会 话 对 象 ， 确 保 每 一 次 请 求 在 同 
一 个 会 话 中 。 

verify-False: 忽略 证 书 验证 。 如 果 没 有 安装 12306 网 站 的 根 证 书 ， 爬 取 过 程 
中 会 提示 连接 不 安全 而 导致 无 法 访问 ， 一 般 忽略 证 书 验证 即 可 解决 。 

验证 码 识别 : 根据 验证 码 的 问题 找 出 图 片 所 在 组 号 的 位 置 即 可 。 图 片 位 置 顺 
序 是 从 上 到 下 再 从 左 到 右 ， 组 号 从 1 到 8 依次 排序 。 如 果 有 多 个 组 号 ， 组 号 
之 间 就 用 英文 的 过 号 隔 开 。 


验证 码 验证 : 将 输入 的 字符 串 以 逗号 分 割 后 , 根据 图 片 位 置 找到 对 应 的 图 片 坐标 ， 
最 后 将 坐标 拼接 起 来 就 得 到 参数 answer。 
运行 上 述 代 码 ， 如 图 15-3 所 示 。 














清点 击 下 图 中 所 有 的 F3 up 
" - InsecureequestVarning) 
< Tantun. 5 
Y X i 
— NS y 1 
»s d InsecureRequestlarn ing) 
PNE 
u a » ^ Process finished with exit code 0 


say Hon rhon. exe F:/12306/test. py 








{result_message”:“ 验 证 码 校 验 成 功 ^, “result_code”:“4"} 
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图 15-3 验证 结果 








981535 项 目 实战 : 12306363: 














15.3 用 户 登录 与 验证 


完成 验证 码 验证 ， 下 一 步 是 实现 用 户 登 录 功 能 。 从 图 15-1 可 知 ， 单 击 登录 按钮 
会 触发 两 个 POST 请 求 ， 其 中 第 二 个 是 用 户 登 录 请 求 ， 对 该 请 求 进行 分 析 ， 如 图 15-4 
所 示 。 




















C) Hide data URLs. All JS CSS Img Media Font Doc 
lame X [Headers | Preview. Response Cookies Timing 

[ ] captcha-check Y General 

|O igin Request URL: https://kyfw.12306.cn/passport/web/login 


Request Method: POST 
Status Code: ® 200 OK 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (14) 
> Request Headers (12) 
wFormData ^ view source view URL encoded 
username: 13435423143 
password: 
appid: otn 














15-4 登录 请 求 


登录 请 求 的 参数 有 username、password 和 appid， 而 且 username 和 password 没有 
经 过 加 密 处 理 ， 参 数 appid 是 固定 不 变 的 。 那 么 ， 用 户 登 录 的 代码 如 下 : 


url -'https://kyfw.12306.cn/passport/web/login' 
data = ( 

'username': '13435423143', 

'password': 'XXXXXX', 














'appid': 'otn' 
) 
r = session.post(url, data-data) 
print (r.text) 
由 于 用 户 登 录 的 代码 无 法 单独 运行 ， 因 此 我 们 将 验证 码 验 证 和 用 户 代 码 整 合 在 一 
起 ， 只 要 将 用 户 登录 的 代码 添加 到 验证 码 的 代码 下 面 即 可 ， 运 行 结果 如 图 15-5 所 示 。 
完成 用 户 登录 后 ， 接 着 回 到 登录 界面 ， 当 输入 正确 的 账号 、 密 码 和 验证 码 之 后 ， 
单 击 登录 按钮 ， 触 发 两 个 请 求 之 后 ， 发 现 网 页 会 自动 跳 转 ， 在 网 页 跳 转 时 ， 在 开发 者 
工具 捕捉 到 两 个 新 的 POST 请 求 , 但 这 两 个 请 求 只 在 一 瞬间 出 现 ,等 网 页 跳 转 完成 之 后 ， 


请 求 信息 就 会 被 清理 掉 。 
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E thon\lib\site packages\urllib3\connectionpool]. py:852: InsecureReguestWarning: Unverified HTTPS request. 
InsecureRequestWarning) 
请 输入 验证 码 : 56 





F:\Python\lib\site-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request 
InsecureRequestWarning) 

{"result_message” : 验证 码 校 验 成 功 "，result_code “: 4 

F:VPython V ibVsi te-packagesVur] Hib3Vconnectionpool.py:852: InsecureRequestWarning: Unverified HTTPS request 
InsecureRequestWarning) 


[result message":" S3 EE", "result code":0, "uamtk" : "On jyEiClOnhGTRb5W3vPvOE3n45XPhAk-5MsuwdmEnwsdl 110") 














15-5 用 户 登录 信息 











这 是 因为 HTTP 的 302 跳 转 ， 网 页 跳 转 之 后 ，Chrome 浏览 器 将 之 前 捕捉 到 的 请 
求 清空 ， 然 后 重新 捕捉 新 页 面 的 请 求 。 遇 到 这 种 情况 的 时 候 ， 只 能 在 网 页 跳 转 的 期 间 
内 单 击 开发 者 工具 ， 然 后 按 Ctrl+E 停止 Network 对 请 求 的 捕捉 ， 这 样 就 能 保留 之 前 的 
请 求 信息 。 除 此 之 外 ， 读 者 还 可 以 使 用 Fiddler 对 网 站 抓 包 。 


回 到 本 项 目 中 ， 在 网 页 跳 转 之 前 ，Chrome 浏览 器 捕捉 的 请 求 信息 如 图 15-6 和 图 
15-7 所 示 。 














[Fiter J] Hide data URLs. Ai TERES 





JS CSS img Media Font Doc WS 


Name 


X |Headers Preview Response Cockies Timing 








Y General 
口 vamauthclient Request URL: https://kyfw.12306.cn/passport/web/auth/uamtk 
Request Method: POST 
Status Code: 6 260 ok 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (12) 
> Request Headers (12) 
wFormData ^ view source view URL encoded 


appid: otn 





图 15-6 用 户 登录 验证 一 











Filter C) Hide data URLs All [fff us Css img Media Font Doc WS 
Name 





x [Headers Preview Response Cookies Timing 








[ .] vamtk Y General 
Request URL: https: //kyfw. 12306.cn/otn/uamauthclient 
Request Method: POST 
Status Code: 8 200 ok 
Remote Address: 157.255.68.113:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (9) 
> Request Headers (12) 
YFormData ^ view source view URL encoded 
tk: MmiSapgkKcZuzDxe6q eMJRV9Zkvvysz U4niCYN9sImk1110 

















15-7 用 户 登录 验证 二 
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从 图 15-6 和 图 15-7 可 知 ， 网 页 跳 转 时 ， 发 生 了 两 次 POST 请 求 ， 而 且 两 者 只 有 
一 个 请 求 参数 ， 图 15-6 的 请 求 参数 是 固定 值 ， 而 图 15-7 的 请 求 参 数 是 变化 值 。 
现在 无 法 确定 图 15-7 请 求 参 数 的 由 来 。 一 般 来 说 ， 请 求 参数 主要 的 来 源 如 下 : 





(1) Doc 标签 的 HTML 内 容 ， 可 以 复制 参数 值 的 内 容 ， 然 后 在 HTML 中 快速 查 
找 参数 是 否 存 在 。 

(2) XHR 标签 的 请 求 信息 ， 参 数 可 能 由 其 他 的 请 求 信息 生成 。 

(D JS 标签 的 请 求 信 息 ， 需 要 对 JavaScript 代码 进行 解读 ， 参 数 有 可 能 由 
JavaScript 生成 。 

(4) 特殊 数据 ， 如 随机 数 和 时 间 戳 。 随 机 数 大 多 数 都 是 以 小 数 为 主 的 ， 大 多 数 
随机 数 可 以 视 为 固定 不 变 的 参数 , 时 间 戳 通常 以 130XXXXX 开头 , 长 度 一 般 为 9 一 16 
位 不 等 。 








根据 上 述 查 找 方法 结合 实际 分 析 ， 当 前 只 有 两 个 POST 请 求 ， 第 二 个 请 求 信息 的 
请 求 参数 很 可 能 来 自 于 第 一 个 请 求 信息 的 响应 内 容 。 
在 上 述 已 完成 的 代码 中 添加 以 下 代码 ， 实 现 图 15-6 的 请 求 : 


url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' 
data = ( 
'appid': 'otn' 
) 
r = session.post(url, data-data) 


print (r.text) 


运行 代码 ， 结 果 如 图 15-8 所 示 。 





InsecureRequestWarning) 

请 输入 验证 码 : 45 

F: \Python\lib\site-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. 
InsecuroRequestWarning) 

result message": "S üF SEPA RE^, "result code^:"4"] 


F:VPythonMibVsite-packagesVurllib3lconnectionpool.py:832: InsecureRequestWarning: Unverified HTTPS request is being made. 





InsecureRequestWarning) 
result message": " RÈI)”, "result code":0, "uamtk^:^9SHmBE6TX imlaKVaUD TwqxT3WLyRDR-rOSnMsPiPs1pl110"] 


F:WPythonMibVWsite-packagesVurllibJlconnectionpool.py:852: InsecurefequestWarning: Unverified HTTPS request is being made. 





InsecureRequestWarning) 
Üresult message" : "BEES", "result code":0, "apptk":null, "newapptk" :"tg sFvSVVZAtN8srMpIXMMAgHIRb-BGL-Euop4hHVcket 1110" ) 


F:\Python\lib\site packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. 














图 15-8 用 户 登 录 验 证 结果 一 
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从 最 后 的 输出 结果 分 析 ，newapptk 的 数据 格式 和 图 15-7 的 请 求 参 数 比较 符合 。 
尝试 使 用 newapptk 的 数据 作为 图 15-7 的 请 求 参数 ， 在 上 述 代码 中 添加 以 下 代码 : 


4 newapptk 是 图 15-6 请 求 之 后 的 响应 结果 
newapptk = r.json()['newapptk'] 
url = 'https://kyfw.12306.cn/otn/uamauthclient' 
data = ( 
'tk': newapptk 
) 
r = session.post(url, data-data) 


print(r.text) 


行 结果 如 图 15-9 所 示 。 





请 输入 验证 码 : 5 

F;\Python\lib\site-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding 
InsecureRequestWarning) 

("result message" VENE. "result code":"4"] 

Inneciionpool. py:892: InsecureRequestWarning: Unverified HTTPS request is being made. Adding 











InsecureRequ. 
("result mes; 


^:0, "uamtk";"9SHaBEOTX imlaKVaUD TwqxT3WLyRDR-rO5nMwPiPw1plll0^] 
:892: InsecureRequestWarning: Unverified HTTPS request is being made. Adding 








InsecureRequ. 
(result, message": "验证 通过 ", "result, code" :0, "apptk null, “newapptk”:“tg_aFvSVVZAtN8srypIXMM4gHIRb-BGL-Euop4hHYcket1110”} 


E: \Python\lib\site-packages\urllib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding 








TnsecureRequestWarning) 
["'apptk" :"tg aFvSVVZAtN8srMpIXMMAgHTRb-BGL-Euop4hHVcket 1110", ^result, code" :0, result_message": "验证 通过 ", “username”:” 黄 永 祥 } 











图 15-9 用 户 登录 验证 结 


根据 图 15-9 的 运行 结果 得 知 ， 第 二 次 POST 的 请 求 参 数 CLE 15-7) 来 自 于 第 
一 次 POST 请 求 〈 见 图 15-6) 的 响应 内 容 ， 也 就 说 这 两 个 请 求 是 紧密 联系 的 ， 共 同 完 
成 用 户 登 录 验 证 功能 。 

月 户 登 录 网 站 由 三 部 分 功能 组 成 : 验证 码 验证 一 用 户 登录 ~ 用 户 验证 。 对 这 三 部 
分 功能 进行 优化 和 整理 ， 代 码 如 下 : 


import requests 




















def login(username, password): 
# 坐标 参考 : 40,40,114,35,192,39,257,36,42,115,119,107,185,124, 
272,117 
code list - ( 
!'1': '40,40,', 
'2'i 7114,35,', 
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eM 
'4': '257,36,', 
'5': '42,115,', 
'6': '119,107,', 
'71': 7185,124,', 
"gr. 932 337" 
) 
+ 请 求 头 
headers = { 'User-Agent': 
'Mozilla/5.0 (Windows NT 10.0; WOW64) 
AppleWebKit/537.36 ' 


' (KHTML, like Gecko) Chrome/63.0.3218.0 


Safari/537.36', 
"Referer': 
'https://kyfw.12306.cn/otn/login/init'] 


url = 'https://kyfw.12306.cn/passport/captcha/captcha-image? 


login site-E&module-login&rand-sjrand' 


# 忽略 证 书 验 证 
r = session.get(url, headers-headers, verify-False) 
# 下 载 验证 码 图 片 
f = open('code.png', 'wb') 
f.write(r.content) 
f.close() 
# 输入 验证 码 图 片 位 置 ， 多 个 验证 码 用 英文 逗号 分 开 
code=input (" 请 输入 验证 码 : ") 
get code = '"' 
for i in code.split(',"): 
# 根据 输入 每 组 图 片 的 组 号 获取 对 应 的 坐标 位 置 
get code += code list[i] 
+ 验证 码 校 验 
data-( 
'answer':get code, 
"login sité':"E"', 
'rand':'sjrand' 


} 


url = 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
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b: 


r — session.post(url, data-data) 
print (r.text) 
if ' 验证 码 校 验 失 败 ' not in str(r.text): 


+ 用 户 登 录 
url = 'https://kyfw.12306.cn/passport/web/login' 
data = ( 


'username': username, 
'password': password, 
'appid': 'otn' 

) 

r = session.post(url, data-data) 
print (r.text) 

if ' 密码 输入 错误 ' not in str(r.text): 


# 登录 验证 第 一 次 请 求 


url = 'https://kyfw.12306.cn/passport/web/auth/uamtk' 


data = ( 
'appid': 'otn' 
} 
r = session.post (url, data=data) 
# 登录 验证 第 二 次 请 求 
newapptk = r.json()['newapptk'] 
url = 'https://kyfw.12306.cn/otn/uamauthclient' 
data = ( 
'tk': newapptk 
} 
r=session.post (url, data=data) 
print (r.text) 
return True 
else: 
return False 
return False 


. main ': 
* 创建 持久 化 会 话 对 象 
session = requests.session() 

username — 'xxxxxxx' 

password - 'xxxxxxx' 

login info - login(username, password) 


print (session) 
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查询 车 次 信息 首先 要 输入 出 发 地 、 目 的 地 和 出 发 日 期 , 完成 信息 输入 后 , 单 击 “ 查 
询 ” 按 钮 ， 网 站 根据 输入 的 信息 返回 相应 的 车 次 信息 。 








从 一 个 正常 的 车 次 查询 流程 中 发 现 ， 实 际 上 网 站 与 用 户 的 交互 是 在 用 户 单 














E 
nd 


询 ” 按 钮 时 发 生 的 。 在 开发 者 工具 捕捉 到 的 请 求 如 图 15-10 和 图 15-11 所 示 。 








me | 目 Preseve log 目 Disable cache | 目 
JS CSS img Media Font Doc WS Mj 








[2116 requests 1 79 KE /82 kg 


X. Headers [Preview] Response 


V (validatesessogesShowId. 
http 200 





valldatetessages: 





0 
Showld: " validatormessage" 














Ee . | Hide dunurts Al (Rf) us css img Media Font Doc ws mani 











[27 16 requests 179 KR/82 KBtr. — Purpose codes ADULT 





图 15-10. 车 票 查询 请 求 及 响应 内 容 一 







=2017-.. | 


ies Timing 


000063120516312] Iz0] rc] rz0]wm [06:28] 10:54 |04:26]v| 5 


abuogranso| i ccosacr10290 rtaa | rzojwei| za]iemo»:ee| 


16co000683200 6832] IZQ] EAY| 120 ww] 07:11 [11:23|04:12| V| AAaFfVk 
oonewr2a we QOO FT [6co00c174800|61748] 20] r2Q vi]07:22] 





Barusceoaat RExRNUC qvik30%30| fii] |e0eoc160204 [61002] zog |wm| zo |wwm[o7: 2 
Iatyxarbopuiascrtbxortaota | SET [ec 





CAII lciooeeee72or [arsi nm rza] 07:45] 12:1 104:25|v |anoRAanade 
fx: 





03|655e| I70|2AF | 120 |w]o8:05| 12:0403: 





;cooooc: 
[rycenl Ri lerooect312061 C1312|1001 cuu oj earae] 12:19] atreo|Y] eta 
farXonoangvohsxooeroue va0%20| fi] Ie3000r 118006 rien Gz0l vAx ozone 


nee 1°! 


图 15-11 车 票 查询 请 求 及 响应 内 容 二 


对 请 求 信息 分 析 可 知 ， 用 户 在 单 击 “ 查 询 ” 按 钮 后 会 发 送 两 个 GET 请 求 ， 两 个 
GET 请 求 的 参数 是 一 致 的 。 再 查看 两 者 的 返回 数据 ， 图 15-10 的 返 




















比 发 现 ， 两 者 的 数据 是 可 以 相互 匹配 的 。 也 





字母 组 成 的 ， 最 后 一 个 字母 无 法 确认 。 





回 数据 并 没有 太 大 





处 ; 图 15-11 的 返回 数据 内 容 较 多 ， 而 且 与 网 页 显示 的 车 次 信息 〈 见 图 15-12) 对 


就 是 说 ， 网 页 上 的 车 次 信息 由 图 15-11 的 
请 求 信息 生成 并 按照 某 种 方式 泻 染 到 网 页 上 。 

在 代码 中 实现 车 次 查询 ， 首 先 要 找到 请 求 参 数 的 数据 来 源 。 从 图 15-10 和 图 
15-11 的 参数 可 知 ， 出 发 地 和 目的 地 都 是 英文 字母 ， 前 两 个 字母 是 由 城市 名 的 拼音 首 
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SE 
i 

















图 15-12 查询 车 次 信息 


根据 15.3 节 的 请 求 参 数 查找 方法 ， 分 别 在 Doce、XHR、JS 标签 查找 和 分 析 各 个 请 
求 信息 。 我 们 在 JS 标签 某 个 请 求 的 响应 内 容 中 找到 城市 的 字母 编号 ， 如 图 15-13 所 示 。 





EJ Hide data URLs Al | XHR (Bj CSS Img Media Font Doc WS Manifest Other 
Name X Headers | Preview | Response Timing 
[E] data.jcokies.js ^| a|var station names -'6bjb| 北 京北 |vAp|beijingbeilbjble6bjd 


上 日 queryteftTicket js js?scriptVersion-1.9043 
[E] jquery.bgiframe.m: js 
[O newjs 


E station namejs?station_version=1.9028 





|. ] favorite namejs 

[E] queryLeftTicket end. UAM. js.js?scriptVersion 
[C qtmxofy 

[E] datajcalendarjs 

| ] captcha jsjs 

| Levent is 

[14 / 126 requests 1 5.8 KB / 102 KB transferred l... lm 


15-13 各 个 城市 信息 




















观察 其 数据 结构 ， 发 现 每 个 城市 之 间 以 “@” 为 一 个 开始 点 ， 抽 取 部 分 内 容 进行 
分 析 : 


@bjb| 北京 北 | VAP | beijingbeilbjb|08bjd| 北京 东 | BOP| beijingdonglbjd|18 
bji| 北京 |BJP|beijinglbj|26bjn 

| 北京 南 | VNP|beijingnan|bjnl 

在 内 容 中 可 以 找到 城市 名 称 和 城市 英文 编号 ， 分 别 是 “北京 北 一 VAP”“ 北 京东 一 
BOP” 和 “北京 一 BJP”。 每 个 数据 之 间 以 “|” 隔 开 ,而 我 们 所 需 的 数据 分 别 是 含有 “@?” 
的 数据 后 的 第 一 位 和 第 二 位 。 根 据 这 个 规律 ， 实 现代 码 如 下 : 
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import requests 
def city name(): 

url = 'https://kyfw.12306.cn/otn/resources/js/framework/ 
station name.js?station version-1.9031' 

city code - session.get (url) 

city code list - city code.text.split("|") 

city dict - () 

for k, i in enumerate(city code list): 

if tet in-i: 
# 城市 名 作为 字典 的 键 ， 城 市 编号 作为 字典 的 值 


city dict[city code list[k + 1]] = city code list[k + 2] 





return city dict 


现在 得 到 图 15-11 的 请 求 参数 ， 接 下 来 对 图 15-11 返回 的 车 次 信息 进行 清洗 ， 获 
取 我 们 所 需 的 数据 。 在 实际 中 ， 每 班车 次 存在 两 种 情况 ， 分 别 是 有 余 票 和 无 票 。 对 这 
两 种 情况 的 数据 进行 分 析 和 对 比 : 


"$2BJ1GyMIoelW3AmIOyCCOho$2FthJG$2F4PfGMtxEKS2Byrl9JuOTLHBVrBJfd4 
ORUtRiP$2BbVdnpdTiob£0AjYQAl1V 

kkqS16P5EsPeuK$2Fldya6KLswYyo$2BBwsLXQkr4i2D2tDAndy;jyhOOhMZEKn$2B 
NFAZaiBMRQi$0ATRBqKt8pYlNmBeu 

91gEQdsdvMJ23SGTzzptyCwYtmEut4FFog6LPkywCZTl1EfeFOO4Hp$2BU$2BF2NIk 
$0AeeFN8£Y$3D| 

预订 16c0000G31205|G312|12Q0|ICW|IZQIWHN|06:28|10:54|04:26] Yl 

$2FCaZQBZdKPD70TjFodC1$2F7y2N8jqdmZRAJHOrECZreKGar12|20171023|3|Q 
z|]01|]09|null|lO||I ILL LL 11 

有 1 有 181100M09010M9" 


上 述 数据 是 图 15-12 G312 车 次 的 列车 信息 ， 每 个 数据 由 “|” 连 接 组 成 一 条 完整 
的 车 次 信息 。 有 一 部 分 数据 与 图 15-12 对 得 上 ， 其 余 的 数据 暂时 无 法 确定 ， 可 能 会 在 
后 续 的 流程 中 起 到 重要 作用 。 我 们 再 抽取 无 票 的 车 次 信息 ， 如 图 15-14 所 示 。 


国 三 州 南 09:44 04:17 
14:01 “AAA 
10:00 13:41 
23:34 — 当日 到 达 
10:00 03:38 
13:38 当日 到 达 

















10:06 13:17 m a a 
23:23 — "HE 2: [sg e tp ene een (es 
1031 04:06 





14:7 当日 到 达 





图 15-14 无 票 的 车 次 信息 
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"| 预订 |6c00000G66051G661IZQlBXPI IZQIWHN|10:00113:38/03:38INI 

8zmC3adDZKJilD3WPp2sMDr83uz91FxKN$2FYEON11G$2FD7AaME|20171023|3 
1Q89101103101011111111111 无 1 无 | 无 

| 100M090|0M9" 


可 以 看 到 ，G66 车 次 已 经 满座 无 票 ， 分 析 其 数据 内 容 发 现 “预订 ”前 面 的 数据 为 
空 ， 其 他 信息 和 有 余 票 的 车 次 信息 大 致 相同 。 说 明 “预订 ”前 面 的 数据 可 以 区 分 车 次 
是 否 还 有 余 票 。 

无 论 是 无 票 还 是 有 余 票 ， 都 是 以 “|” 将 各 个 信息 连接 起 来 组 成 一 条 车 次 信息 ， 按 
照 这 个 规律 ， 车 次 信息 清洗 代码 如 下 : 


train info info = r.json() 

train info dict = {} 

for i in train info info['data']['result']: 

train info status = i.split('|"') 

if train info status[0] !- '': 
train info dict['secretStr'] - train info status[0] 
train info dict['train no'] - train info status[2] 
train info dict['stationTrainCode'] - train info status[3] 
train info dict['fromStationTelecode'] - train info status[4] 
train info dict['toStationTelecode'] = train info status[7] 
train info dict['leftTicket'] - train info status[12] 


train info dict['train location'] - train info status[15] 


train info info 是 图 15-11 返回 的 响应 内 容 ，train_ info info['data'][ result] 是 直接 
定位 车 次 信息 ， 然 后 对 车 次 信息 以 “|” 分 割 ， 得 到 新 的 列表 ， 通 过 判断 “预订 ”前 面 
的 数据 是 否 为 空 ， 排 除 无 票 的 车 次 信息 。 


综合 上 述 分 析 ， 将 获取 城市 编号 和 获取 车 次 信息 的 代码 整合 优化 ， 代 码 如 下 : 
+ 获取 城市 编号 


import requests 
def city name(): 
url = 'https://kyfw.12306.cn/otn/resources/js/framework/ 
station name.js?station version-1.9031"' 
city code - session.get (url) 


city code list = city code.text.split("|") 
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city dict = {} 
for k, i in enumerate(city code list): 
üf 'B' in 4: 
* 城市 名 作为 字典 的 键 ， 城 市 编号 作为 字典 的 值 
city dict[city code list[k + 1]] = city code list[k + 2] 

return city dict 
* 获取 车 次 信息 
def train info(train date, query from station name, query to - 

station name): 

+ 调用 函数 city name 获取 城市 编号 

city dict = city name() 

from station = city dict[query from station name] 


to station = city dict[query to station name] 


# 获取 车 次 信息 
while 1: 
+ 第 一 次 请 求 


url = 'https://kyfw.12306.cn/otn/leftTicket/log? 
leftTicketDTO.train date- 
$s&leftTicketDTO.from station-$s& 
leftTicketDTO.to station-$s&purpose codes-ADULT' $ 
(train date, from station, to station) 
r = session.get (url) 
# 第 二 次 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/queryA? 
leftTicketDTO.train date-$s&leftTicketDTO.from station-$s& 
leftTicketDTO.to station-$s&purpose codes-ADULT' % 
(train date, from station, to station) 
r = session.get (url) 
time.sleep(2) 
if '， 非法 请 求 ' not in str(r.text) and '"result":[]' not in 
str(r.text): 
train info info - r.json() 
train info dict = {} 
for i in train info info['data']['result']: 
train info status = i.split('|"') 
if train info status[0] !- '': 


train info dict['secretStr'] = train info 
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status[0] 

train info di 
status[2] 

train info di 
info status[3] 

train info di 
train info status[4] 

train info di 
train info status[7] 

train info di 
status[12] 

train info di 
info status[15] 


return train . 


if | name --' main ': 
session = requests.session() 
username = '13435423143' 
password = 'XXXXXXXX' 


login info login (username, pa 
# 判断 是 否 登录 成 功 
if login info: 


'2017-10-23 
query from station name 


train date 


query to station name 


train info dict = train 


station name,query to station name) 


ER X train. infoQ 定义 三 个 参数 : 


ct['train no'] = train info 


ct['stationTrainCode'] 


train 


ct['fromStationTelecode'] 


ct['toStationTelecode'] - 


ct['leftTicket'] = train info 


ct['train location'] train. 


info dict 


ssword) 


"FAN" 
' RN ' 


info(train date,query from 


(1) train. date 为 出 发 时 间 ， 日 期 格式 为 YYYY-MM-dd。 
(2) query from station name 为 出 发 地 , 以 城市 中 文 名 作为 函数 参数 , 如 “广州 ”。 
(3) query to station name 为 目的 地 ， 以 城市 中 文 名 作为 函数 参数 ， 如 “武汉 ”。 


函数 整体 的 开发 逻辑 大 致 如 下 : 
(1) 调用 函数 city name 获取 城市 编号 ， 
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(2) 使 用 while 循环 获取 车 次 信息 ， 目 的 是 保证 车 次 信息 获取 成 功 ， 因 为 在 浏 
览 器 上 每 次 查询 车 票 不 一 定 会 返回 车 次 信息 ， 循 环 的 作用 相当 于 用 户 不 停 地 单 击 “ 查 
询 ” 按 钮 。 每 次 循环 设置 延 时 2 秒 ， 这 个 等 待 时 间 是 为 了 防止 程序 访问 太 过 频繁 而 被 
网 站 认为 是 机 器 人 。 

G) 判断 第 二 次 请 求 所 返回 的 响应 内 容 是 不 是 车 次 信息 ， 若 是 ， 则 获取 第 一 条 
有 余 票 的 车 次 信息 并 返回 ， 反 之 一 直 循环 发 送 请 求 ， 直 到 获取 为 止 。 











运行 上 述 代码 ， 结 果 如 图 15-15 所 示 。 





请 输入 验证 码 : 3 

F:\Python\lib\site-packages\ur1lib3\connectionpool. py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certific| 
TnsecureRequestWarning) 

('rosult, mossago": 验证 码 校 验 成 功 ", "result codo":747) 

F:\Python\Lib\site-packages\url1ib3\connectionpool. py:852: InsecureRequestWarning: Unverified HITPS request is being made. Adding certific| 





InsecureRe rning) 
(result nessage^:" ERRI”, "result code^:0, "uatk": "K3DlvIKblTwnXOn291M ju MQISdZrrhonvwsv52kP1921110"] 
P:WythonMiblsite-packagesurllib3lconnectionpool.pv:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certific| 
TnsecureRequestNerning) 
F: Python Vl ibVsi te-packages VurllibOVconnectionpool.py:857: InsecuroRequestWerning: Unverified HTTPS request is being made. Adding certific 








stWarning) 
{appt TT100YcuL9m00t4Vzy8oRAm ji j2Uz5wLy0Ujn111 
F:\Python\Lib\site-packages\urllib3\connectionpool, py:852: InsecureRequestWarning: Unverified HITPS reque 





ername”:“ 黄 水 祥 “]} 


is being made. Adding certific| 





result code":0, "result message": “验证 通 : 








InsecureRequestWarning) 

F:\Python\lib\site-packages\urllib3\connectionpool., py:852: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certific| 
InsecureRequestWarning) 

Ü.stationTrainCode' : 2122, 'leftTicket': 'vLPdZRMYTFO7hyDbhCgÓZQaECBI t OU2pxNoTs fGvUoAgudN2FVHQF2CCFHsOgX2D' , " train no': '630000712208', 











1515 车 票 查询 结果 


15.5 预订 车 票 


完成 车 次 查询 ， 接 下 来 实现 车 票 预订 功能 。 由 于 在 15.4 节 中 ， 函 数 train info) 
只 返回 第 一 条 有 余 票 的 车 次 信息 ， 以 图 15-12 为 例 ， 如 果 车 次 G312 有 余 票 ， 就 直接 
返回 该 车 次 信息 ， 如 果 满 座 无 票 ， 就 取 下 一 班车 次 信息 再 判断 是 否 有 余 票 ， 直 到 取得 
有 余 票 的 车 次 为 止 。 

我 们 对 图 15-12 的 G312 车 次 进行 车 票 预订 ， 单 击 “ 预 订 ” 按 钮 进行 分 析 ， 发 现 
单 击 按钮 会 触发 一 个 302 跳 转 ， 在 跳 转 前 ， 截 取 到 两 个 POST 请 求 ， 如 图 15-16 和 图 
15-17 所 示 。 








EJ 
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ajx Headers | Preview Response Cookies Timing 





Cer 


口 submitOrderRequest 


Request URL: https://kyfw.12306.cn/otn/login/checkUser 
Request Method: POST 

Status Code: 6 200 ok 

Remote Address: 112.90.135.238:443 

Referrer Policy: no-referrer-when-downgrade 


> Response Headers (8) 
> Request Headers (14) 
Y Form Data 

json att: 


view source view URL encoded 








图 15-16 车 票 预订 请 求 一 





Name 


DO checkUser 
H submitOrderRequest 


X [Headers | Preview Response Cookies Timing 








Y General 
Request URL: https: //kyfw.12306.cn/otn/1eftTicket/submi tOrderRequest 
Request Method: POST 
Status Code: 6 200 OK 
Remote Address: 112.90.135.238:443 
Referrer Policy: no-referrer-when-doungrade 
> Response Headers (9) 
> Request Headers (12) 
wFormData  viewsoure view URL encoded 
secretStr: 421GyMIoe143AmIOyCCOho/th2G/ AP f GMtxEKS2Byr 19Ju0TLHBVr82 f dAORURi P4 bVdnpdTiob. 
jvQAavkkqs16PsEspPeukK/1dya6KLswYyorBwsLXQkrai2D2tDAndyjyhoohwMZEKn+NFAZaiBMRQi 
TRBqKt8pYlNmBeu91gEodsdvM]23SGTzzptyCwYtmEut4FFog6LPkywCZT1EfeFoO4Hp+U+F2NIk 
eeFN8fY= 
train_date: 2017-10-23 
back train date: 2017-10-21 
tour flag: dc 
purpose codes: ADULT 
query from station name: 三 











Z requests [387 Btronsferr. — "Undefined: 





query to station name: 











图 15-17. 车 票 预订 请 求 二 


从 图 15-16 的 请 求 链接 分 析 ， 这 是 用 于 检查 用 户 登 录 状 态 ， 请 求 参数 的 数据 为 空 。 
从 图 15-17 的 请 求 链接 、 请 求 参数 分 析 得 知 ， 这 是 一 个 提交 订单 的 请 求 ， 请 求 参数 分 


析 如 下 : 


(1) train date, query from station name 和 query to station name 在 15.4 节 已 


明确 知道 。 


(2) back train date 是 回程 的 日 期 。 如 果 单 程 订 票 ， 该 参数 直接 取 当 天 日 期 即 可 。 


(3) tour flag 从 参数 值 dc) 判断 ， 这 是 由 
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“单程 ”拼音 的 首 字母 组 成 的 。 
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(4) purpose codes 的 参数 值 固 定 不 变 ，undefined 的 参数 值 为 空 。 


CS) SecretStr 是 一 串 不 规则 的 数据 ， 回 顾 15.4 节 ， 在 车 次 信息 里 面 也 含有 不 规 
则 数据 ， 猜 想 这 两 者 是 否 一 样 ， 我 们 抽取 G312 车 次 的 信息 ， 如 下 所 示 : 


"$2BJ1GyMIoelW3AmIOyCCOho$2FthJG$2FA4PfGMtxEKS2Byrl9JuOTLHBVrBJfd4 
ORUtRiP$2BbVdnpdTiob$0AjYQAlV 

kkqS16P5EsPeuK$2Fldya6KLswYyo$2BBwsLXQkr4i2D2tDAndyjyhOOhMZEKn$2B 
NFAZaiBMRQi$OATRBqKt8pYlNmBeu 

91gEQdsdvMJ23SGTzzptyCwYtmEut4FFog6LPkywCZT1EfeFOO4Hp$2BU$2BF2NIKk 
$0AeeFN8fY$3D| 

预订 16c0000G312051G31211ZQ|ICWIIZQIWHNI06:28110:54104:261Y| 

$2FCaZQBZdKPD70TjFodC1$2F7y2N8jqdmZRAJHO0rECZreKGar12|2017102313|Q 
Z|01|09|nul1IOI LI ELE TL TL 1 1 

有 1 有 181100M09010M9" 


通过 对 比 发 现 两 者 的 数据 是 一 样 的， 只 不 过 某 些 特殊 符号 经 过 编码 处 理 ， 如 “+” 
变 成 “%2B”、“/” 变 成 “%2F”。 在 第 5.7 节 中 ，urllib.parse 提供 了 函数 对 数据 进 
行 编码 和 解码 处 理 。 


综合 上 述 分 析 ， 车 票 预订 功能 代码 如 下 : 


def train order(secretStr, train date, query from station name, 
query to station name): 
# 获取 当前 日 期 
back train date = datetime.datetime.now().strftime('£Y-$m-$d') 
# 用 户 登 录 检 查 
url = 'https://kyfw.12306.cn/otn/login/checkUser' 
data = ( 
“json att': 


LED 


) 
r = session.post(url, data-data) 
# 提交 车 票 预订 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/submitOrderRequest"' 
data = ( 
'secretStr': secretStr, 
'train date': train date, 
'back train date': back train date, 


'tour flag': 'dc', 
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'purpose codes': 'ADULT', 
'query from station name': query from station name, 


'query to station name': query to station name, 


'undefined': '' 
) 
r = session.post(url, data-data) 
if | name --' main ': 
Session = requests.session() 
username - '13435423143' 
password = 'XXXXXXXXXXXX' 


login info - login(username, password) 
if login info: 
train date - '2017-10-23' 
query from station name = ' 广 州 ， 
query to station name = ' RÙ ' 
train info dict = train info(train date, 
query from station name,query to station name) 
# 数据 格式 化 处 理 
secretStr-parse.unquote(train info dict['secretStr']) 
train order(secretStr, train date, 


query from station name, query to station name) 


15.6 提交 订单 


车 票 预订 提交 之 后 ， 从 浏览 器 上 可 以 看 到 页 面 发 生 跳 转 ， 在 新 的 页 面 上 需要 填写 
乘客 信息 ， 最 后 提交 订单 ， 如 图 15-18 所 示 。 











JU WW zF EF WRXN ES FEDT 


= [1425422143 amts Q 






ORR 旅行 更 舒心 < ”3 元 保费 最 高 33 万 元 保障 


乘 意 险 由 中 国 铁路 财产 保险 自 保有 限 公司 提供 














15-18 填写 乘客 信息 
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填写 好 乘客 信息 之 后 ， 单 
如 图 15-19 和 图 15-20 所 示 。 





“提交 订单 ”按钮 ， 通 过 开发 者 工具 捕捉 请 求 信息 ， 











Name A |X | Headers | Preview Response Cookies Timing 
Y General 
[C getQueueCount Request URL: https: //kyfw.12306.cn/otn/confirmPassenger/checkorderinfo 


Request Method: POST 
Status Code: 8 200 OK 





Remote Address: 112.99.135.238:443 
Referrer Policy: no-referrer-when-downgrade 

> Response Headers (8) 

> Request Headers (12) 

wForm Data ^ view source view URL encoded 
cancel flag: 2 


bed level order num: 000000000000000000000000000000 
passengerTicketStr: 0,0,1, JH, 1, EEEEEEEEEEEEEEENIN , 13435423143, N 
oldPassengerStr: 黄 永福 ,1, M, 1 

tour flag: dc 

randCode: 

json att: 

REPEAT SUBMIT TOKEN: 1c03c4d7b495472d18cb478b22a8ad38 

2/7 requests | 960 8/32... 





图 15-19 提交 订单 请 求 一 





> 


Name |x [Headers | Preview Response Cookies Timing 


C checkOrderinfo Y General 
Request URL: https://kyfw.12306.cn/otn/confirmpassenger/getQueuecount 
Request Method: POST 
Status Code: ® 200 ok 
Remote Address: 112.90.135.238:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (8) 
> Request Headers (12) 
Y Form Data view source view URL encoded 
train date: Mon Oct 23 2017 00:00:00 GMT+0800 (中 国标 准时 间 ) 
train no: 6c0000631205 
stationTrainCode: 6312 
seatType: 0 
fromStationTelecode: I2Q 
toStationTelecode: WHN 
leftTicket: vLpNnE7unhYQsEnxRySme2micCLToJwpnQs foLbdo3f223dX28 
purpose codes: 00 
train location: QZ 
.json att: 
2 / 7 requests 1 980 B / 32... REPEAT SUBMIT TOKEN: 1c03c4d7b495472018cb478b22a82d38 


图 15-20 提交 订单 请 求 二 


























单 击 “提交 订单 ”按钮 后 ，Chrome 捕捉 到 两 个 POST 请 求 。 从 图 15-18 的 请 求 
参数 来 看 : 


(1) 参数 cancel flag. bed level order num, tour flag. randCode 和 json att 是 
定 不 变 的 。 
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(2) 2" REPEAT SUBMIT TOKEN 无 法 得 知 ， 可 能 由 其 他 请 求生 成 。 

(3) 参数 passengerTicketStr 和 oldPassengerStr 代表 个 人 乘 车 信息 。 观察 参数 组 成 ， 
发 现 每 个 数据 之 间 用 喜 号 分 隔 ， 每 个 数据 有 可 能 代表 某 个 意思 ， 为 了 进一步 验证 数据 
的 意义 ， 我 们 修改 乘客 信息 ， 如 图 15-21 所 示 。 





2017-10-23 (周一 ) G312 次 "ihi (06:281) 一 武汉 站 10:560. 
序号 MM AHO në EART inem pun 
ARE 13435423143 














json att: 
REPEAT SUBMIT TOKEN: 126bd3196ce5a76fb060490111820f f 





图 15-21 验证 请 求 参 数 
对 比 图 15-19 和 图 15-21 发 现 ，oldPassengerStr 的 数据 不 会 随 着 席 别 和 票 种 的 变 
化 而 变化 ， 而 passengerTicketStr 会 随 之 变化 。 
为 了 寻找 passengerTicketStr 的 变化 规律 , 多 次 修改 乘客 信息 , 发 现 变化 规律 如 下 : 
(1) passengerTicketStr 前 三 个 数字 M、0、2 If] M 和 2 分 别 代表 一 等 座 和 儿童 票 ， 
0 是 固定 不 变 的 。 
(2) 席 别 编号 : 软卧 =4、 硬 座 =1、 硬 卧 =3、 二 等 座 = O (字母 0) 、 一 等 座 
=M、 商 务 座 =9。 
(3) 票 种 编号 : 成 人 票 =1、 儿 童 票 =2、 学 生 票 =3、 残 军 票 =4。 




















确定 了 参数 passengerTicketStr 的 数据 含义 ， 同 时 发 现 一 个 问题 ， 每 班车 次 的 席 别 
信息 是 动态 变化 的 ， 但 无 法 确定 当前 车 次 还 剩 下 哪些 席 别 可 供 我 们 选择 。 从 图 15-18 
看 到 ， 席 别 信息 是 一 个 下 拉 杠 控件， 里面 含有 剩余 的 席 别 信息 ， 因 此 需要 找 出 当前 车 
次 剩余 的 席 别 信息 ， 用 于 构建 参数 passengerTicketStr。 分 别 从 XHR、JS 和 Doc 标签 
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查找 席 别 信息 ， 最 终 在 Doc 标签 找到 ， 如 图 15-22 和 图 15-23 所 示 。 





€ G m w viec = == Ø Groupby frame | @ Preservelog (S Disablecache | @ 
目 Hide data URLs All | XHR JS CSS Img Media Font (SES ws mi 
X Headers | Preview | Response Cookies Timing 


1391 
1392 








1399 þe" :null,'id':'M','start station name':null,'start time':null,'val 
2481 |usEA7 (78:58 5143) Vu6709 u7968* , ' Vu4EC Vu7849 VUSEA7 (463. 50 Vu5143. 


2403 5, "minutes ':28, 'month' :0, ' seconds' :0, "time' : 5520000, 'timezoneof fse 








|| / 46 requests -| A23 | « EI 


ticket seat codeN Aa .* [73850 


图 15-22 查找 席 别 信息 一 


























Cj Hide data URLs All | XHR JS CSS img Media Font [Eg WS Manifest Other 
[Name A |X Headers | Preview | Response Cookies Timing 
Doe | 1391 var can add = "Y'; 
1392 var IsStudentDate-false; 
1393 var init seatTypes-[('end station name':null,'end time':null,'id'i'M', 
1394 
1395 var defaultricketrypes-[('end station name':null,'end time':null,'id': 
1396 
1397 var init cardTypes-[('end station name':null,'end time':mil,'id'i'1', 
1398 
1399 var ticket seat codeMap-('3':[('end station name':null,'end time':null 
1400 
1401 var ticketInfoForPassengerForm-('cardTypes':[('end station name' :null, 
1402 
1403 var orderrequestoro-{'adult_nun" :0, "apply order. no':null, 'bed level on 
1404 
1405 var init limit ticket num-'5'; 
1406 
1407 var oldTicketDTOs-""; 
1408 
1409 var goorderDTO-""; 
~~ mo 

















图 15-23 查找 席 别 信息 二 








从 图 15-22 和 图 15-23 看 到 ， 由 于 席 别 的 价钱 具有 特殊 唯一 性 ， 因 此 可 利用 其 特 
殊 性 来 实现 快速 查找 ， 发 现在 Doc 的 请 求 信息 中 找到 剩余 的 席 别 信息 。 席 别 信息 写 在 
变量 ticket seat codeMap 中 ， 以 “id: X” 格 式 存放 。 
再 回 到 图 15-19 的 REPEAT_SUBMIT_TOKEN 参数 , 从 内 容 中 无 法 得 知 数据 含义 ， 
而 且 数 据 是 动态 变化 的 ,为 了 确认 数据 来 源 ,分别 从 XHR、JS 和 Doc 标签 进行 排查 ， 
在 Doc 标签 找到 数据 来 源 ， 如 图 15-24 所 示 。 























m 
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Filter E Hide data URLs All | XHR JS CSS Img Media Font 











Name a|x Headers | Preview | Response Cookies Timing 
SESS oerip 
[nr e por 
31| var ctx-'/otn/'; 
12| var globalRepeatsubmitToken = 'i26bd3196ceSa76fb0604920111820ff ' ; 
13| var global lang = 'zh Qv'; 
14| var sessionInit = "\ugEc4\u6C38\u7965"; 
15| var isshowuotice = null; 
16| var cLeftricketurl = null; 
47| var isTestFlow = null; 
18| var isnobilecheck = null; 
19| var passport appId = null; 
20| var passport login = null; 
21| var passport captcha - null; 
22| var passport authuam - nu 
23| var passport captcha chec 
24| var passport authclient - null; 
25| var passport loginPage - null; 
26| var passport okPage - null; 
27| var passport proxy captcha - null; 
28| /*]p*/ 
29| «/scrint» 
3e|* 


1/45reque.. Aa .* | 126bd3196ce5a76fb06049a0111820ff 


15-24 查找 请 求 参 数 





























可 以 发 现 ， 参 数 REPEAT_ SUBMIT TOKEN 是 Doc 标签 的 JavaScript 变量 。 综 合 
上 述 分 析 ， 图 15-19 的 实现 代码 如 下 : 


# 获取 Doc 标签 的 数据 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc' 


data = ( 

' json att': '', 

) 

r = session.post(url, data-data) 
# 获取 参数 


get token = r.text.split('globalRepeatSubmitToken') [1].split(';') 
[0]. 

replace('-','').replace("'",'').strip() 

seat code str = r.text.split('ticket seat codeMap-')[1]. 
split(';')[0].strip() 

# 找 出 座位 编号 并 去 重 


temp list = re.findall(r"'id':'(.*?)',",seat code str) 








temp list - list(set(temp list)) 

# 获取 第 一 个 席 别 编号 

seatType = temp list[0] 

# 检查 订单 信息 

# 构建 请 求 参数 ，name- 乘客 姓名 ，identity_card- 身份 证 号 ，phone_number- 
电话 号 码 ， 票 种 为 成 人 票 
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oldPassengerStr = name + ',1,' + identity card + ',1 ' 

passengerTicketStr = seatType + ',0,1,' + name + ',1l,' + 
identity card + ',' + phone number + ',N' 

url = 'https://kyfw.12306.cn/otn/confirmPassenger/checkOrderInfo' 

data = ( 

'cancel flag': '2', 

'bed level order num': '000000000000000000000000000000', 

'passengerTicketStr': passengerTicketStr, 

'oldPassengerStr': oldPassengerStr, 

'tour flag': 'dc', 

'randCode': '', 

r” jaon attr *'*; 

'REPEAT SUBMIT TOKEN': get token 


} 
r = session.post (url,data=data) 


上 述 代 码 只 实现 了 图 15-19 的 功能 ， 要 完成 订单 提交 ， 还 要 实现 图 15-20 的 请 求 ， 
15-20 请 求 的 参数 如 下 : 


(1) train date, train no. stationTrainCode, fromStationTelecode, leftTicket 和 
train location 可 在 15.4 节 的 车 次 信息 中 获取 。 

(2) REPEAT SUBMIT_TOKEN 和 seatType 可 在 图 15-19 实现 的 代码 中 获取 。 

(3) purpose codes 和 json att 是 固定 不 变 的 。 


结合 图 15-19 和 图 15-20 的 分 析 ， 提 交 订 单 的 功能 代码 如 下 : 


def creat order (name, identity card, phone number, train date, 
train info dict): 
# 获取 Doc 标签 的 数据 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc' 


data = ( 
* Jaon akts ** 
) 
r — session.post(url, data-data) 
* 获取 参数 


key check isChange = r.text.split('key check isChange') [1]. 





split(',")[0].reéplace(':', '*'y.replace("'", **'y.strip() 
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b: 


get token = r.text.split('globalRepeatSubmitToken') [1] . 
split(';")[0].replace('s', '*').:replace("'", '").strip() 

seat code str = r.text.split('ticket seat codeMap-')[1]. 
split(';')[0].strip() 

+ 找 出 席 别 编号 并 去 重 

temp list = re.findall(r"'id':'(.4?)',", seat code str) 

temp list - list(set(temp list)) 

seatType - temp list[1] 


# 检查 订单 信息 
# 构建 请 求 参数 ，name- 乘客 姓名 ，identity_card- 身份 证 号 ，phone _ 
number- 电话 号 码 ， 票 种 为 成 人 票 
oldPassengerStr = name + ',1,' + identity card + ',1 ' 
passengerTicketStr = seatType + ',0,1,' + name + ',1,' + 
identity card + ',' * phone number + ',N' 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/ 
checkOrderInfo"' 
data = ( 
'cancel flag': '2', 
'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketStr, 
'oldPassengerStr': oldPassengerStr, 
'tour flag': 'dc', 
'randCode': '', 
” Jaon att" tt 
'REPEAT_SUBMIT_TOKEN': get_token 
} 
r = session.post (url, data=data) 
+ 提交 订单 信息 
* train date, train no,stationTrainCode, fromStationTelecode,t 
oStationTelecode, 
# leftTicket,train location 来 自 车 次 信息 
# seatType HI REPEAT SUBMIT_TOKEN 来 自 Doc 标签 的 数据 
# purpose codes 和 json att 固定 不 变 
while 1: 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/ 


getQueueCount' 
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+ 日 期 格式 化 处 理 
check ticket date 


train date + ' 00:00:00" 


timeArray = time.strptime(check ticket date, "$Y-$m-$d 





date — time.strftime("$a $b $d $Y", timeArray) 
data = ( 
'train date': date + ' GMT+0800 (中 国标 准时 间 ) ' ， 
'train no': train info dict['train no'], 
'stationTrainCode': train info 
dict['stationTrainCode'], 
'seatType': seatType, 
'fromStationTelecode': train info 
dict['fromStationTelecode'], 
'toStationTelecode': train info 
dict['toStationTelecode'], 
#1eftTicket 进行 数据 格式 化 处 理 
'leftTicket': parse.unquote(train info 
dict['leftTicket']), 
'purpose codes': '00', 





'train location': train info dict['train location'], 
"Josan attri **, 
'REPEAT_SUBMIT_TOKEN': get_token 
} 
r = session.post (url, data=data) 
print (r.text) 
# 判断 请 求 是 否 成 功 
if ' 系统 繁忙 ， 请 稍 后 重 试 not in str(r.text): 
break 
if | name --' main ': 
session = requests.session() 
username = '13435423143' 


| 


password = 'xxxxx' 
login info = login (username, password) 
if login info: 
train date - '2017-10-23' 
query from station name = "广州 " 
query to station name = ' RÙ ' 
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bs 


train info dict - train info(train date, 

query from station name,query to station name) 
secretStr = parse.unquote(train info dict['secretStr']) 
train order(secretStr, train date, query from station 


name, query to station name) 


name = ' 黄 永 祥 ' 
identity card = 'xxxxxxxxxxxxx' 
phone number - '13435423143' 


creat order(name, identity card, phone number, train 


date, train info dict) 


157 生成 订单 
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图 


户 提 交 订 单 之 后 ， 下 一 步 是 确认 订单 ， 在 网 页 上 单 击 “提交 订单 ”按钮 ， 会 弹 
出 信息 核对 窗口 ， 主 要 供用 户 确认 乘 车 信息 和 乘客 的 个 人 信息 ， 如 图 15-25 所 示 。 










2017-10-23 (周一 ) G312 次 广州 南 站 (06:28 开 ) 一 武汉 站 (10:54 到 ) 
序号 m» ELI 姓名 证 件 类 型 证 件 号 码 TU ou 

Jk ATSE NENENENNEKEEEEN 13435423143 
ARERMRRERKEE, KERMI MAM, 











成 人 


15-25 信息 核对 





当 用 户 信息 核对 无 误 后 ， 单 击 “ 确 认 ” 按 钮 ， 订 单 就 会 自动 生成 ， 同 时 在 开发 者 
工具 捕 所 到 两 个 请 求 信 息 ， 如 图 15-26 所 示 。 


15-26 的 请 求 参数 分 析 ， 参 数 分 为 三 种 类 型 ; 


(1) 已 明确 的 参数 ， 在 前 面 的 章节 已 分 析 说 明 ， 如 passengerTicketStr. 
oldPassengerStr, leftTicket, train location 和 REPEAT SUBMIT TOKEN. 
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Filter E Hide data URLs. All JS CSS Img Media Font Doc WS Manifest Other 
[Name 


x 


Headers | Preview Response Cookies Timing 
Request Method: POST 

[ queryOrderWaitTime?ra... Status Code: & 200 oK 

Remote Address: 112.90.135.238:443 
Referrer Policy: no-referrer-when-downgrade 


> Response Headers (9) 

> Request Headers (12) 

v Form Data view source view URL encoded 
passengerTicketStr: 0,0,1, Xf 1, MNA , 1 3435423143, N 
oldPassengerStr: Ji], i NENNEN; 
randCode: 
purpose codes: 00 
key check isChange: 1208899A810819550CC9FA934C64E060700F55FB16993F7A44CO2A02 
leftTicketStr: 1X2FulFmsvHUBUyATajgRPWM91TbCwgPa7oWUSavr09ZLADq3X 
train location: Qz 
choose seats: 











json att: 
2/S8requess | 11K8/25.| REPEAT SUBMIT TOKEN: c66267b2968f7fc371896c224955dd60 


图 15-26 确认 订单 








(2) 参数 值 是 固定 不 变 的 ， 如 randCode、purpose_codes、seatDetailType、 
roomType、dwAll 和 json att. 


(3) 参数 无 法 明确 ， 如 choose seats 和 key check isChange. 


从 参数 choose seats 的 命名 分 析 , 代表 选 座 信息 。 在 图 15-25 中 , 用 户 确认 订单 之 前 ， 
还 可 以 选择 座位 位 置 ， 座 位 以 A 一 上 命名 ,如 果 参 数值 为 空 ， 就 默认 为 网 站 自动 选 座 ; 
如 果 参 数值 为 A 一 上 中 的 某 个 值 ， 就 说 明 车 票 的 座位 是 由 用 户 自 行 选择 的 。 

参数 key check isChange 无 法 确定 ， 要 找 出 该 参数 的 来 源 ， 首 先 分 析 这 个 请 求 是 
否 由 单 击 图 15-25 的 “确认 ”按钮 所 触发 ， 而 图 15-25 的 信息 核对 窗口 是 单 击 图 15-18 
的 “提交 订单 ”按钮 所 产生 的 ， 在 这 两 个 过 程 里 面 ， 网 页 没有 发 生 刷 新 ， 新 增 的 请 求 
信息 如 图 15-26 所 示 。 这 就 说 明 ， 参 数 key_check_isChange 可 能 来 自 于 图 15-18 全 部 
请 求 信息 中 的 某 个 请 求 。 因 此 ， 我 们 分 别 从 XHR、JS 和 Doc 标签 查找 参数 ， 通 过 快 
捷 查 找 ， 在 Doc 标签 中 找 出 参数 key_check isChange， 如 图 15-27 所 示 。 
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€ G | m Y |View = = Ø Group by frame | (9 Preservelog (9 Disablecache | @ Offline Online Y 


Filter Œ Hide data URLs All | XHR JS CSS Img Media Font (S9 ws Manifest Other 











Name X Headers [Preview] Response Cookies Timing 





7968" )]; 

time’ :nu11, 'value' :'\u62A4\u7167'}]; 

WNuAEBCVU7B49 VUSEA7" )], '1':[('end station name':null,'end time':null,'id':'9','start station name 
tation name":null,'start time':null, value :NG2MN7167 ) ], "i sasync "1°, "KeyEehecke change: 


Ticket' :null, 'regTpAddress' :null, 'reqTimeleftStr':null,'reserve flag':'A','seat detail type code 


1 E » 


.|key_check isChange. tofia v Cancel 


15-27 查找 请 求 参数 


根据 上 述 分 析 ， 订 单 生成 代码 如 下 : 


























|1 / 46 requests .| 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/confirmSingleForQueue' 
data = ( 

'passengerTicketStr': passengerTicketStr, 
'oldPassengerStr': oldPassengerStr, 

'randCode': '', 

'purpose codes': '00', 

'key check isChange': key check isChange, 
'leftTicketStr': train info dict['leftTicket'], 
'train location': train info dict['train location'], 
'choose seats': '', 

'seatDetailType': '000', 

'roomType': '00', 

'dwAll': 'N', 

' json att': '', 

'REPEAT SUBMIT TOKEN': get token 

) 

r = session.post (url,data-data) 


print (r.text) 


由 于 此 功能 与 15.6 节 的 关联 较 多 ， 因 此 在 此 不 再 定义 新 的 函数 ， 将 此 功能 直接 
添加 到 15.6 节 的 函数 creat order() 中 ， 代 码 如 下 : 
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t order(name, identity card, phone number, train date, 


train info dict): 


+ 获取 Doc 标签 的 数据 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc' 
data = ( 
' json atts '' 

) 

r = session.post(url, data-data) 

+ 获取 参数 

key check isChange = r.text.split('key check isChange') [1]. 
Split(*','j[01.replace(':', '").replace("'", *'').strip() 

get token - r.text.split('globalRepeatSubmitToken') [1]. 
split(';')[0].replace('-', '').replace("'", ''").strip() 

seat code str = r.text.split('ticket seat codeMap-')[1]. 


split(';')[0].strip() 
# 找 出 席 别 编号 并 去 重 


temp 
temp 
seat 


| list = re.findall(r"'id':'(.+?)',", seat code str) 
| list = list(set(temp list)) 
Type = temp list[1] 


# 检查 订单 信息 
# 构建 请 求 参数 ，name- 乘客 姓名 ，identity_card- 身份 证 号 ，phone | 
number- 电话 号 码 ， 票 种 为 成 人 票 


oldP 


pass 


assengerStr = name + ',1,' + identity card + ',1 ' 


engerTicketStr = seatType + ',0,1,' + name + ',1,' + 


identity card * ',' * phone number * ',N' 


url 


= 'https://kyfw.12306.cn/otn/confirmPassenger/ 


checkOrderInfo" 


data 


EY 

"cancel fag": '2', 

'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketStr, 


'oldPassengerStr': oldPassengerStr, 


'tour flag': 'dc', 
'randCode': '', 
* Jaon attr "*, 


'REPEAT SUBMIT TOKEN': get token 
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) 
r — session.post(url, data-data) 
# 提交 订单 信息 
* train date, train no,stationTrainCode, fromStationTelecode,t 
oStationTelecode, 
# leftTicket,. train location 来 自 车 次 信息 
4 seatType fl REPEAT SUBMIT TOKEN 来 自 Doc 标签 的 数据 
$ purpose_codes 和 _json_att 固定 不 变 
while 1: 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/ 
getQueueCount' 
+ 日 期 格式 化 处 理 
check ticket date = train date + ' 00:00:00" 
timeArray = time.strptime(check ticket date, "$Y-$m-$d 
$H:$M:$S") 
date = time.strftime("$a $b $d $Y", timeArray) 
data = ( 
'train date': date + ' GMT«0800 (中 准时 间 ) '， 
'train no': train info dict['train no'], 





'stationTrainCode': train info 
dict['stationTrainCode'], 
'seatType': seatType, 
'fromStationTelecode': train info 
dict['fromStationTelecode'], 
'toStationTelecode': train info 
dict['toStationTelecode'], 
#1eftTicket 进行 数据 格式 化 处 理 
'leftTicket': parse.unquote(train info_ 
dict['leftTicket']), 

'purpose codes': '00', 





'train location': train info dict['train location'], 
* Json att": **, 
'REPEAT SUBMIT TOKEN': get token 

} 

r = session.post(url, data-data) 

print (r.text) 


判断 请 求 是 否 成 功 
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if ' 系统 繁忙 ， 请 稍 后 重 试 ' not in str(r.text): 
break 
+ 生成 订单 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/ 
confirmSingleForQueue' 
data = ( 
'passengerTicketStr': passengerTicketStr, 
'oldPassengerStr': oldPassengerStr, 
'randCode': '', 
'purpose codes': '00', 
'key check isChange': key check isChange, 
'leftTicketStr': train info dict['leftTicket'], 
'train location': train info dict['train location'], 
'choose seats': '', 
'seatDetailType': '000', 
'roomType': '00', 
'dwAll': 'N', 
r jaon atte Mu 
'REPEAT_SUBMIT_TOKEN': get_token 
} 
r = session.post (url, data=data) 
print (r.text) 


15.8 本 章 小 结 





本 章 介绍 了 12306 抢 票 伶 虫 的 编写 技巧 ， 整 个 项 目的 要 点 总 结 如 下 : 
1. 项 目 实现 的 仆 虫 功能 

(1) 验证 码 验 证 。 

(2) 用 户 登录 与 验证 。 

(3) 查询 车 票 。 

(4) 预订 车 票 。 

(5) 提交 订单 。 

(6) 生成 订单 。 
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2. 5 个 函数 的 功能 和 使 用 


login: 用 户 验证 和 登录 ， 将 验证 码 验 证 和 用 户 登 录 与 验证 合并 在 该 溃 数 中 。 
city name: 获取 城市 的 编号 ， 将 城市 名 称 转换 为 城市 的 英文 编号 。 

train info0: 查询 车 次 ， 并 调用 city name()。 

train orderQ: 预订 车 票 ， 主 要 生成 订单 信息 。 

creat order): 填写 订单 信息 并 提交 确认 ， 将 提交 订单 和 生成 订单 功能 合并 在 
该 函数 中 。 


3. 项 目 整体 代码 


import requests 


import time 


import datetime 


import re 


from urllib import parse 


# 用 户 登录 


def login(username, password): 


# 坐标 参考 : 40,40,114,35,192,39,257,36, 42,115, 119, 107,185, 124,2 


19,1377 
code list = ( 
"4^: *439,409,*, 
"Mate 334, 35902 
"35: 7202 9917, 
npo 7254236, 5 
"Sa 742,115, * 
“Ore "*T9, 107, 1; 
"qs $185,124", 
'8': '272,117'! 
} 
# 请 求 头 
headers = { 'User-Agent': 
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/ 
537.36 * 
' (KHTML, like Gecko) Chrome/63.0.3218.0 Safari/ 
537.36', 
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"Referer': 
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'"https://kyfw.12306.cn/otn/login/init'] 


url = 'https://kyfw.12306.cn/passport/captcha/captcha-image? 
login site-E&module-login&rand-sjrand' 
+ 忽略 证 书 验证 
r = session.get(url, headers-headers, verify-False) 
# 下 载 验证 码 图 片 
f = open('code.png', 'wb') 
f.write(r.content) 
f.close() 
# 输入 验证 码 图 片 位 置 ， 多 个 验证 码 用 英文 逗号 分 开 
code=input (" 请 输入 验证 码 : ") 
get code = '"' 
for i in code.split(',"): 
# 根据 输入 每 组 图 片 的 组 号 获取 对 应 的 坐标 位 置 
get code += code list[i] 
# 验证 码 校 验 
data={ 
'answer':get code, 
'login site':'E', 
'rand':'sjrand' 
) 
url = 'https://kyfw.12306.cn/passport/captcha/captcha-check' 
r = session.post(url, data-data) 
print (r.text) 
if ' 验证 码 校 验 失 败 ' not in str(r.text): 


# 用 户 登 录 
url = 'https://kyfw.12306.cn/passport/web/login' 
data = ( 


'username': username, 


'"password': password, 


'appid': 'otn 
) 
r = session.post(url, data-data) 
print (r.text) 
if ' 密码 输入 错误 not in str(r.text): 
# 登录 验证 第 一 次 请 求 
url = 'https://kyfw.12306.cn/passport/web/auth/uamtk"' 
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data 


i 


=f 
'appid': 


otn 


r = session.post(url, data-data) 

# 登录 验证 第 二 次 请 求 

newapptk = r.json()['newapptk'] 

url = 'https://kyfw.12306.cn/otn/uamauthclient' 


data 


) 


r-se 


=f 
'tk': newapptk 


ssion.post(url, data-data) 


print (r.text) 


retu 
else: 
retu 


return False 


# 获取 城市 编号 
def city_name () : 
url = 'https 
station name.js? 
stat 
city code - 
city code li 
city dict - 
for k, i in 
if *g* i 


rn True 


rn False 


://kyfw.12306.cn/otn/resources/js/framework/ 


ion version-1.9031"' 
session.get (url) 

st = city code.text.split("|") 
ü 

enumerate(city code list): 


n d 


* 城市 名 作为 字典 的 键 ， 城 市 英文 编号 作为 字典 的 值 
city dict[city code list[k + 1]] = city code list[k + 2] 


return (city dict) 


+ 获取 车 次 信息 
def train info(t 


station name): 


rain date, query from station name, query to 


# 调用 函数 city name 获取 城市 编号 


city dict = 
from station 


to station = 
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city dict[query to station name] 
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+ 获取 车 次 信息 
while 1: 
# 第 一 次 请 求 


url = 'https://kyfw.12306.cn/otn/leftTicket/ 
log?leftTicketDTO.train date-$s& 
leftTicketDTO.from station-$s&leftTicketDTO.to 
station-$s&purpose codes-ADULT' 
% (train date, from station, to station) 
r = session.get (url) 
# 第 二 次 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/ 
queryA?leftTicketDTO.train date-$s& 
leftTicketDTO.from station-$s&leftTicketDTO.to 
station-$s&purpose codes-ADULT' 
$ (train date, from station, to station) 
r = session.get (url) 
time.sleep(2) 
if ' 非法 请 求 ' not in str(r.text) and '"result":[]' not in 


str(r.text): 
train info info - r.json() 
train info dict = (] 
for i in train info info['data']['result']: 
train info status = i.split('|') 
if train info status[0] !- '': 
train info dict['secretStr'] = train info 
status[0] 
train info dict['train no'] = train info 
status[2] 
train info dict['stationTrainCode'] = train 


info status[3] 
train info dict['fromStationTelecode'] - 
train info status[4] 


train info dict['toStationTelecode'] = train. 
info status[7] 

train info dict['leftTicket'] = train info 
status[12] 

train info dict['train location'] = train 
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info status[15] 


return train info dict 


# 预订 车 票 


def train order(secretStr, train date, query from station name, 


query to station name): 


$d') 


# 获取 当前 日 期 


back train date = datetime.datetime.now().strftime('$Y-$m- 


# 用 户 登 录 检 查 
url = 'https://kyfw.12306.cn/otn/login/checkUser' 
data = ( 
^ json att": TI 
) 
r = session.post(url, data-data) 
# 提交 车 票 预订 请 求 
url = 'https://kyfw.12306.cn/otn/leftTicket/ 


submitOrderRequest"' 


data = ( 
'secretStr': secretStr, 
'train date': train date, 
'back train date': back train date, 
'tour flag': 'dc', 
'purpose codes': 'ADULT', 
'query from station name': query from station name, 
'query to station name': query to station name, 
'undefined': '' 


H 一 
[i 


session.post (url, data=data) 


# 生成 订单 


def creat order(name, identity card, phone number, train date, 


train info dict): 
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# 获取 Doc 标签 的 数据 


url = 'https://kyfw.12306.cn/otn/confirmPassenger/initDc" 
data = ( 


 json att': 


split(" 


strip() 


split(" 


split(" 


number: 
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r= session.post(url, data=data) 
# 获取 参数 
key check isChange = r.text.split('key check isChange')[1]. 


,')I0]. 


replace(':', '"'").replace("'", "ys 


get token = r.text.split('globalRepeatSubmitToken') [1] . 


7") [0]. 


replace('-', '').replace("'", '').strip() 
seat code str = r.text.split('ticket seat codeMap-')[1]. 


7") [0] .strip() 


# 找 出 席 别 编号 并 去 重 

temp list = re.findall(r"'id':'(.*?)',", seat code str) 
temp list - list(set(temp list)) 

seatType - temp list[1] 


# 检查 订单 信息 

# 构建 请 求 参数 ，name: 乘客 姓名 ，identity_card: 身份 证 号 ，phone _ 
电话 号 码 ， 票 种 为 成 人 票 

oldPassengerStr = name + ',1,' + identity card + ',1 ' 
passengerTicketStr = seatType + ',0,1,' + name + ',1,' 十 


identity card + ',' 十 


phone number + ',N' 
url - 'https://kyfw.12306.cn/otn/confirmPassenger/ 


checkOrderInfo" 


data = ( 
'cancel flag': '2', 
'bed level order num': '000000000000000000000000000000', 
'passengerTicketStr': passengerTicketStr, 
'oldPassengerStr': oldPassengerStr, 


'tour flag': 'dc', 
'randCode': '', 
* json att": "h, 


'REPEAT SUBMIT TOKEN': get token 
) 


r — session.post(url, data-data) 


+ 提交 订单 信息 
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* train date, train no,stationTrainCode, fromStationTelecode,t 
oStationTelecode, 
# leftTicket,train location 来 自 车 次 信息 
# seatType 和 REPEAT SUBMIT TOKEN 来 自 Doc 标签 的 数据 
# purpose codes 和 à son att 固定 不 变 
while 1: 
url = 'https://kyfw.12306.cn/otn/confirmPassenger/ 
getQueueCount' 
+ 日 期 格式 化 处 理 
check ticket date = train date + ' 00:00:00" 
timeArray = time.strptime(check ticket date, "$Y-$m-$d 
$H:$M:$S") 
date time.strftime("$a $b $d $Y", timeArray) 
data = ( 
'train date': date + ' GMT«0800 (中 国标 准时 间 )', 


'train no': train info dict['train no'], 


'stationTrainCode': train info 
dict['stationTrainCode'], 
'seatType': seatType, 
'fromStationTelecode': train info. 
dict['fromStationTelecode'], 
'toStationTelecode': train info 
dict['toStationTelecode'], 
#leftTicket 进行 数据 格式 化 处 理 
'leftTicket': parse.unquote(train info_ 
dict['leftTicket']), 

'purpose codes': '00', 





'train location': train info dict['train location'], 
* jaon att*: **, 
'REPEAT SUBMIT TOKEN': get token 

) 

r = session.post(url, data-data) 

print (r.text) 

+ 判断 请 求 是 否 成 功 

if ' 系统 繁忙 ， 请 稍 后 重 试 ' not in str(r.text): 
break 

# 生成 订单 
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= 'https://kyfw.12306.cn/otn/confirmPassenger/ 


confirmSingleForQueue' 
data = ( 


if 


} 


r 


'passengerTicketStr': passengerTicketStr, 
'oldPassengerStr': oldPassengerStr, 

'randCode': '', 

'purpose codes': '00', 

'key check isChange': key check isChange, 
'leftTicketStr': train info dict['leftTicket'], 
'train location': train info dict['train location'], 
'choose seats': '', 

'seatDetailType': '000', 

'roomType': '00', 

'dwAll': 'N', 

"json akt? *'; 

'REPEAT_SUBMIT_TOKEN': get_token 


session.post (url, data=data) 


print (r.text) 


name == ' main ': 





session - requests.session() 


# 网 站 账号 密码 
username = '13435423143' 
password = 'xxxxxx' 


login info - login(username, password) 


if login info: 


train date = 'YYYY-mm-DD' 

query from station name = "广州 " 

query to station name = ' RÙ ' 

train info dict = train info(train date, query from 


station name, query to station name) 


secretStr = parse.unquote(train info dict['secretStr'] 


train order(secretStr, train date, query from station 


name, query to station name) 


# 乘客 信息 
name = " 黄 永 祥 
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identity card = 'xxxxxxxxxxxxxxxxx' 
phone number = '13435423143' 
creat order(name, identity card, phone number, train 


date, train info dict) 


上 述 代码 运行 结果 如 图 15-28 所 示 。 





图 15-28 程序 运行 结果 


从 图 15-28 最 后 的 数据 看 到 "httpstatus":200."data":{"submitStatus":true}， 代 表 购 
票 已 成 功 。 用 户 可 以 在 “我 的 12306 一 未 完成 订单 ”中 查看 已 生成 的 订单 内 容 ， 最 后 
的 付款 流程 需要 用 户 自行 完成 ， 此 时 整个 购 票 流程 真正 完成 。 

4. 进一步 完善 的 建议 

在 本 项 目 中 只 是 简单 地 实现 一 个 抢 票 过 程 ， 但 遇 到 春运 期 间 的 抢 票 ， 程 序 的 稳定 
性 需要 进一步 修改 和 完善 ， 下 面 列 出 几 条 值得 完善 的 建议 : 

COD 增加 车 次 可 选择 功能 ， 将 查询 出 来 的 车 次 的 发 车 时 间 、 时 长 等 信息 提供 给 
用 户 自行 选择 。 

(2) 判断 订单 生成 状态 ， 对 生成 失败 的 订单 进行 相应 处 理 。 

G) 异常 处 理 机 制 ， 因 为 网 站 的 稳定 性 一 直 是 饱 受 争议 的 问题 ， 所 以 要 完善 异 
常 处 理 机 制 ， 确 保 出 现 异常 的 时 候 能 及 时 处 理 ， 提 高 程序 的 稳定 性 。 
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16.1 分 析 说 明 


接触 过 微 博 的 读者 都 知道 ， 一 些 热门 的 微 博 有 很 多 转发 、 评 论 和 点 赞 ， 而 且 博 主 
有 很 庞大 的 粉丝 数 。 这 些 高 数据 都 离 不 开 营销 手段 ， 在 庞大 的 数据 中 有 多 少 是 真实 数 
据 不 为 人 知 ， 但 可 以 肯定 的 是 ， 这 些 数 据 表 定 有 水 分 存在 。 那 么 这 些 有 水 分 的 数据 是 
如 何 产生 的 呢 ? 这 就 是 本 章 讲述 的 重点 。 

本 章 主 要 实现 的 功能 如 下 。 





e weibo loginpy: 微 博 用 户 登 录 ， 同 时 也 是 程序 运行 文件 。 
e weibo verify codepy: 第 三 方 平 台 API， 实 现 验证 码 识别 。 
* weibo collect.py: 根据 关键 字 搜 索 并 采集 热门 微 博 。 





玩 转 Python WEE 


e  weibo send.py: 发 布 微 博 。 

e  weibo followpy: 关注 用 户 。 

e  weibo forward.py: 微 博 点 上 赞 和 转发 评论 。 

e  data.sv: 存储 采集 数据 。 

e 文件 天 video 和 image: 分 别 存储 采集 的 视频 和 图 片 。 


16.2 用 户 登 录 











进入 微 博 首页 我们 发 现 微 博大 部 分 功能 都 要 用 户 登录 才能 使 用 。 那 么 候 取 微 博 
的 第 一 步 就 是 实现 用 户 登录 。 在 Chrome 浏览 器 对 微 博 的 登录 机 制 进行 分 析 ， 在 浏览 
器 中 输入 http:/weibo.com/， 打 开 开发 者 工具 ,捕捉 首页 的 请 求 信息 ， 如 图 16-1 所 示 。 


















-157.61.158.247_1569112663.195312; Apache«157.61.158.] 
5KIbB_BFALAMESMMGn-VEaKLbOCTF1Y3jREK,; SUB=_2AkMur9j54cp， 
9935UrSyqPxfh vtls9jq8MT55529P9DShbmlle4cDhialVBEO405 | 


ay 
(Windows NT 10.0: WoW54) AopleWebkit/S37.36 (Kd 


m Ve URL encoded 











图 16-1 微 博 登 录 界面 
在 开发 者 工具 里 分 别 查看 XHR、JS 和 Doc 标签 的 请 求 信息 : 

(1) Doc 标签 有 4 个 请 求 信息 ， 请 求 信息 的 响应 内 容 都 是 HTML， 主 要 是 网 页 
的 布局 和 一 些 JavaScript 脚本 信息 。 

(2) XHR 标签 有 一 个 POST 的 请 求 信息 ， 对 该 信息 的 请 求 链接 、 请 求 参 数 和 响 
应 内 容 进行 分 析 ， 该 请 求 信息 与 登录 信息 没有 太 大 关联 。 

G) JS 标签 有 多 个 请 求 信息 ， 大 多 数 请 求 都 是 JavaScript 脚本 内 容 ， 查 看 每 一 
个 请 求 信息 ， 发 现 其 中 一 个 请 求 较为 特殊 ， 如 图 16-2 所 示 。 
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Filter EJ Hide data URLs Al | XHR Í css Img Media Fon 
Name X Headers |Preview| Response Cookies T| 
[E] indexjs?version-b81eb8e02b10d728 ^| w sinassocontroller.prelogincallBack( 
indexjsversion-b81eb8e02b10d728 pere 
171Y35 
: "tc-eAd1320488f01d12ece4c9a. 
seed-minjs pubkey: "EB2A38568661887FA188BDDB: 
loginjs retcode: 9 
rsakv: "1330428213" 
aplus v2js servertime: 1509159052 
?2clientjs,abcjs,atpjs?t=20130528 uid: "1777129223" 
[vacjs 
[E] pt2js?_=419210 
index.js?version=b81eb8e02b10d728 
Filter C Hide data URLs All | xHR (Bj Css img Media Font Doc WS Manifest Od 
Name X [Headers | Preview Response Cookies Timing 





E] indexjs?versionzb&teb&e02b10d728 ^ v General 
[Dindexjs?version=b81eb8e02b10d728 Request URL: https: //1ogin.sina.com.cn/sso/prelogin.php 
Acme ete remp & -1509159054634 
| Request Method: GET 








L seed-minjs Status Code: ® 200 Ok 

E loginjs Remote Address: 123.125.105. 243:443 

CRF Referrer Policy: no-referrer-when-downgrade 

E ??dientjsabcjsatpjs?t=20130528 > Response Headers (10) 

O uacjs > Request Headers (8) 

E] pt2jst -4t9210 Y Query String Parameters view source view URL encoded. 
[indexjstversion=boteböedab10d725 | Com sinassocontroller.prelogincalnack 

E] Prevent-minjs event/dom/base-min)s. m 

[DD indexjs?version=b81ebae02b10d728 rsakt: mod 

E sudajs?version=b81eb8e02b10d728 dient: ssologin.js(v1.4.19) 


- ; : 1500159054634 











图 16-2 微 博 登 录 分 析 
根据 图 16-2 分 析 请 求 参数 和 响应 内 容 ， 含 义 如 下 。 


e su 代表 用 户 账号 ， 一 般 以 su A username 命名 。 

* 1509159054634: 以 “150” 开 头 的 数字 大 多 数 是 时 间 疏 。 

* rsakt 和 rsakv: 无 法 确定 这 两 个 参数 代表 的 含义 ， 但 两 者 都 含有 rsa, rsa 是 一 
个 加 密 方法 。 参 数值 可 能 经 过 加 密 处 理 。 

e pubkey: 中 文 翻译 为 公共 密 钥 ， 从 这 个 参数 可 知 ， 某 些 数据 肯定 做 过 加 密 处 理 ， 
大 多 数 是 对 账号 、 密 码 做 加 密 处 理 。 


通过 简单 分 析 ， 我 们 知道 在 用 户 登录 之 前 会 触发 一 个 准备 登录 (prelogin) WR, 
该 请 求 中 包含 一 些 加 密 信息 。 也 就 是 说 ， 在 实现 登录 功能 之 前 ， 先 要 对 上 述 请 求 信息 
发 送 请 求 ， 获 取 其 响应 内 容 的 加 密 信息 后 ， 才 能 进行 下 一 步 用 户 登 录 。 实 现代 码 如 下 : 
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import requests 
import time 
def get server data (su): 
+ 构建 URL 
prelogin url = 'https://login.sina.com.cn/sso/prelogin. 
php?entry-weibo&callback- 
sinaSSOController.preloginCallBack&su-$s&r 
sakt-mod& 
client-ssologin.js(vl1.4.19)& -$s' % (su, 
str(int(time.time() * 1000))) 
pre data res - session.get(prelogin url, headers-headers , 
proxies-proxies) 
# 将 响应 内 容 转换 为 字典 格式 
sever data = eval(pre data res.content.decode ("utf-8"). 
replace ("sinaSSOController.preloginCallBack", '')) 
return sever data 
if name == " main ": 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 


headers = ( 





'User-Agent': agent 
) 
# 代理 IP， 防 止 同一 IP 登录 多 个 不 同 微 博 账号 
proxies = {} 
* 新 建 会 话 
session = requests.session() 
+ 用 户 账号 
su = '13435423143' 


sever data = get server data(su) 
现在 得 到 了 登录 的 加 密 信息 ， 但 还 不 知道 具体 使 用 了 哪些 加 密 方法 ， 我 们 知道 网 
站 对 数据 加 密 一 般 都 在 前 端 完 成 加 密 处 理 ， 然 后 将 加 密 的 数据 发 送 到 网 站 后 台 ， 在 后 
台 再 对 数据 解密 处 理 并 返回 响应 ， 这 样 的 方法 可 以 提高 数据 在 发 送 传输 时 的 安全 性 。 
根据 上 述 原理 ， 我 们 可 以 在 请 求 信 息 中 找 出 具体 的 加 密 方法 ， 数 据 加 密 主要 以 
JavaScript 实现 ， 对 JS 标签 里 的 各 个 JS 文件 进行 分 析 ， 找 到 实现 加 密 功 能 的 JS 文件 ， 
如 图 16-3 所 示 。 
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Hide data URLs All | XHR 8 CSS Img Media Font Doc WS Manifest Other 
X | Headers | Preview Response Timing 
Y General 
Request URL: https://js1.t.sinajs.cn/tS/register/js/v6/pl/register/loginBox/index.js?version-49306022eb5a5f0b 
Request Method: GET 
Status Code: & 200 OK (from disk cache) 
Remote Address: 125.90.205.2:443 
Referrer Policy: no-referrer-when-downgrade 


Response Headers (13) 
Y Request Headers. 

A Provisional headers are shown 

Referer: https://weibo.com/ 

User-Agent: Mozilla/S.0 (Windows NT 6.3; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/S37.36 
Y Query String Parameters view source view URL encoded 

version: 49306022eb5a5f@0b 











图 16-3 微 博 登录 加 密 方 法 


通过 分 析 图 16-3 中 请 求 信息 的 响应 内 容 (JavaScript 代码 ) 可 以 发 现 : 





(1) 用 户 账号 主要 使 用 base64 方式 加 密 。 


(2) 密码 是 使 用 RSA 加 密 的 ， 加 密 密 钥 是 图 16-2 中 的 servertime、nonce 和 
pubkey. 











根据 上 述 分析 ， 账 号 、 密 码 使 用 不 同 的 加 密 方式 ， 对 此 分 别 对 两 者 定义 不 同 的 函 
数 ， 代 码 如 下 : 


import urllib 
import base64 
import rsa 
import binascii 
* 账号 加 密 
def get_su(username) : 
# 使 用 urllib.parse.quote_plus 对 email 地 址 或 手机 号 码 的 特殊 符号 编码 
处 理 
# 然后 使 用 base64 加 密 
username quote = urllib.parse.quote plus (username) 
username base64 = base64.b64encode (username quote. 
encode ("utf-8")) 


return username base64.decode ("utf-8") 


# 密码 加 密 ，servertime、nonce、pubkey 是 来 自 图 16-2 的 数据 


def get password(password, servertime, nonce, pubkey): 
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rsaPublickey - int(pubkey, 16) 

+ 创建 公 钥 

key = rsa.PublicKey(rsaPublickey, 65537) 

# 拼接 明文 

message = str(servertime) + '\t' + str(nonce) + 'Mn' + 
str(password) 

message - message.encode ("utf-8") 

+ 加 密 

passwd = rsa.encrypt(message, key) 

# 将 加 密 信息 转换 为 16 进 制 

passwd = binascii.b2a hex (passwd) 


return passwd 





rsa 模块 是 第 三 方 库 ， 可 使 用 pip install rsa 安装 。 


























完成 用 户 的 账号 、 密 码 加 密 处 理 后 ， 最 后 一 步 就 是 实现 用 户 登 录 ， 在 浏览 器 中 输 
入 账号 、 密码 , 单 击 “ 登 录 ” 按 钮 , 分 析 开 发 者 工具 捕捉 到 的 请 求 信息 , 如 图 16-4 所 示 。 























Filter Ø Hide data URLs Al | XHR JS CSS Img Media Font (Eg ws Menifest Other 
lame. X |Headers | Preview Response Cookies Timing. 
weibo com | entry: weibo 
[E] login;html?from -wbfast&istyle- wbfast&goto - http9;3A.... gateway: 1 
4 "s a 5 om: 
loginjhtmi?from=wbfast&style=wbfast&goto=http%2A.. | - 
qrcode flag: false 
useticket: 1 
|] crossdomain2 php?action- login&rentry -weibo&r- https... pagerefer: 
vanf 1 


ajaxlogin.php?framelogin= t&callback parent sinaSSOCo...| 


su: HTHOMZUOMjNXNDM. 
service: miniblog 
1509115404 





pwencode: rsa2 

rsakv: 1330428215 

sp: 42d9433f3d1cff280786b2ac990f412e392bd0b1f024930b832644725b4e39b78dfca44cédb6205b221 

eca2998804f4a86b57ae8debef4a2406fe65d19b8d098ee7b71d58e444513162e0b82905875175932c834l 

sr: 1280*720 

encoding: UTF-& 

prelt 333 

url: http://weibo.con/ajaxlogin.php?framelogin-1&callback-parent .sinaSS0Control ler. feed 
175 requests | 138 KB / 149 KB transferred | Finish: 14.3.. | — returntype: META 


16-4 微 博 用 户 登录 














从 请 求 参数 可 知 ，su、sp、servertime、nonce 和 rsakv 是 动态 变化 的 ， 其 他 参数 
都 是 固定 不 变 的 。 而 servertime、nonce 和 rsakv 可 以 在 图 16-2 中 直接 获取 ，su 和 sp 
分 别 是 加 密 后 的 账号 和 密码 。 用 户 登 录 代 码 实现 如 下 : 























224 


第 16 章 项 目 实战 : 玩 转 微 博 


import time 
import base64 
import rsa 
import binascii 
import requests 
import re,urllib 
def login(username, password): 
4 获取 servertime、nonce、rsakv、su 和 sp 
su = get su(username) 
sever data = get server data (su) 
servertime = sever data["servertime"] 
nonce = sever data['nonce'] 
rsakv = sever data["rsakv"] 
pubkey - sever data["pubkey"] 
sp = get password(password, servertime, nonce, pubkey) 
# 构建 请 求 参 数 
data = ( 
'entry': 'weibo', 
'gateway': '1', 


Erom": Tt; 

'savestate': '7', 

'"usetricket': SL", 

'pagerefer': "http://login.sina.com.cn/sso/logout.php?ent 
ry-miniblog&r-http£3A$2F$2Fweibo.com$2Flogout.php$3Fbackurl", 

"ySnt*r. ant. 

'su': su, 

'service': 'miniblog', 


'servertime': servertime, 

'nonce': nonce, 

'pwencode': 'rsa2', 

'rsakv': rsakv, 

*sp*s Sb 

var": *1366*768*, 

'encoding': 'UTF-8', 

村 *'115^*, 

'url': 'http://weibo.com/ajaxlogin.php?framelogin-1&callb 
ack-parent.sinaSSOController.feedBackUrlCallBack', 


225 





玩 转 Python 网 络 疏 3 


bu 


'returntype': 'META' 
) 
# 用 户 登录 


url = 'http://login.sina.com.cn/sso/login. 














php?client-ssologin.js(v1.4.18)'" 
login page = session.post(url, data-data,proxies-proxies) 
print(login page.text) Qo 
Xf name -- " main ": 
# 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 





Gecko/20100101 Firefox/41.0' 
headers - ( 
'User-Agent': agent 


) 
# 代理 IP， 防 止 同一 IP 登录 多 个 不 同 微 博 账号 


proxies = () 

# 新 建 会 话 

Session = requests.session() 
1ogin('13435423143', 'xxxxxxxxxx') 


运行 上 述 代 码 ， 结 果 如 图 16-5 所 示 。 





meus TAT CO nT Ty content? text/himi charset CRR 


新 浪 通行 下 </title; 





YX 四 三 下 了 
Bagues 





://passport, weibo. con/sbeso/Iogin?asosaveatate-1540709. 


/s://login.sina.com cn/sso/debu&los?msg- + msg *'&type" + type 




















mi 


16-5 用 户 登 录 响 应 内 容 一 











响应 内 容 是 一 个 HTML. 格式 的 数据 ， 在 HTML 内 容 中 无 法 得 知 是 否 登 录 成 功 ， 
因为 在 数据 中 无 法 获取 用 户 的 信息 。 但 细心 分 析 可 知 ，HTML 内 容 中 有 “location. 
replace”， 这 是 一 个 页 面 跳 转 的 功能 ， 以 此 作为 突破 口 ， 可 以 尝试 访问 跳 转 的 链接 ， 
看 能 否 在 这 个 链接 中 获取 用 户 信息 。 在 上 述 代码 中 的 中 处 添加 以 下 代码 : 
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login loop = (login page.content.decode ("GBK")) 

+ 网 页 跳 转 URL， 获 取 用 户 信息 

pa = r'locationNV.replaceNV ([N'"] (. *2) [N'"]V) " 

loop url = re.findall(pa, login loop) [0] 

login index - session.get(loop url, proxies-proxies) 
print(login index.text) ®© 





次 运行 代码 ， 结 果 如 图 16-6 和 图 16-7 所 示 。 








4H 











K'result^ : true, "userinfo": (uniqueid":"1777129223", "userid" :null, "displayname" :null, "userdomain":"?wvr-b&1f-reg"]] 











16-6 用 户 登 录 响 应 内 容 二 





€ G | m Y view tS "x Ø Group by frame | @ Preservelog @ Disable cache 








Filter Lj Hide data URLs All | XHR JS CSS Img Medio Font 加 W 
[Name X Headers | Preview | Response Cookies Timing 

var munro - X7; 

$CONFIG[ "islogi 








77129223 ; 
"1095051777129223" ; 


$CONFIG[ "oid" 

$CONFIG['page id' 

$CONFIG[ "oni ck ]-" xy-wj' ; 

$CONFIG[ ' skin' ]=" skine55" ; 

$CONFIG[ "background" ]-' 6secd7e7gw1dwx16g]908j' ; 

$CONFIG[ 'scheme' ]-' diyoe3' ; 

$cowFIG['colors type']-'e'; 

$CONFIG[ "uid 

$CONFIG[" 
I: 


























16-7 微 博 用 户 信息 


图 16-7 是 在 网 页 上 查看 的 微 博 用 户 首页 信息 。 对 比 图 16-6 和 图 16-7， 图 16-6 说 
明 用 户 已 成 功 登 录 ， 其 中 userinfo 代表 用 户 信息 ， 观 察 userinfo 的 数据 ， 发 现 uniqueid 
等 于 图 16-7 中 的 uid 和 oid， 因 此 根据 uniqueid 获取 用 户 首 页 信息 ， 在 上 述 代码 的 @ 
处 加 入 以 下 代码 : 

















uuid = login index.text 

uuid pa = r'"uniqueid":"(.*?)"' 

uuid res = re.findall(uuid pa, uuid, re.S)[0] 

4 根据 uniqueid 构建 微 博 首页 的 URL 

web weibo url = "http://weibo.com/$s" $ uuid res 

weibo page - session.get(web weibo url, proxies-proxies) 


response - weibo page.text 
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person info 


if '$CONFIG 
person info 
split("';") [0] 


person info 
split ("$CONFIG[ 


person info 


[1].split("';") 
person info 
split("';") [0] 


person info 
split("';")[0] 

person info 
split("';")[0] 





Fu 


{} 





' in response: 

'nick'] = response.split("S$CONFIG['nick']-'") [1]. 
'watermark'] = response. 
'watermark']-'")[1].split("';") [0] 

'location'] = response.split ("S$CONFIG['location']-'") 
[0] 

'uid'] = response.split ("SCONFIG['uid']-'")[1]. 
'domain'] = response.split("$CONFIG['domain']-'")[1]. 
'oid'] = response.split ("$CONFIG['oid']-'")[1]. 





print(' 登录 成 功 ， 你 的 用 户 名 为 : C + person info['nick']) 
综合 上 述 已 实现 的 功能 ， 本 节 完 整 的 代码 如 下 : 


import requests 


import time 
import 
import 
import rsa 
import 
import re 


# 登录 前 准备 


urllib 
base64 


binascii 


def get server data (su): 


# 构建 URL 


prelogin url 


'"https://login.sina.com.cn/sso/prelogin. 


php?entry-weibo&callback- 


sinaSSOController.preloginCallBack&su-$s&rsakt-mod&client- 


ssologin.js(vi.4.19)& -$s' $(su, str(int(time.time() * 1000))) 


pre data res 


proxies-proxies 


session.get(prelogin url, headers-headers, 


) 


5 将 响应 内 容 转 换 为 字典 格式 


sever data 


eval(pre data res.content.decode ("utf-8"). 


replace ("sinaSSOController.preloginCallBack", '')) 


return sever data 
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* 账号 加 密 
def get su(username): 
# 使 用 urllib.parse.quote plus 对 email 地 址 或 手机 号 码 的 特殊 符号 进行 
编码 处 理 
+ 然后 使 用 base64 加 密 
username quote = urllib.parse.quote plus (username) 
username base64 = base64.b64encode (username quote. 
encode ("utf-8")) 


return username base64.decode ("utf-8") 


# 密码 加 密 ，servertime、nonce、pubkey 是 来 自 图 16-2 的 数据 
def get password(password, servertime, nonce, pubkey): 

rsaPublickey = int(pubkey, 16) 

# 创建 公 钥 

key = rsa.PublicKey (rsaPublickey, 65537) 

+ 拼接 明文 

message = str(servertime) + '\t' + str(nonce) + '\n' + 

str (password) 

message = message.encode ("utf-8") 

+ 加 密 

passwd = rsa.encrypt (message, key) 

# 将 加 密 信息 转换 为 16 进 制 

passwd = binascii.b2a hex (passwd) 


return passwd 


# 用 户 登录 
def login(username, password): 
4 获取 servertime、nonce、rsakv、su 和 sp 
su = get su(username) 
sever data = get server data (su) 
servertime - sever data["servertime"] 
nonce - sever data['nonce'] 
rsakv = sever data["rsakv"] 
pubkey = sever data ["pubkey"] 
sp = get password(password, servertime, nonce, pubkey) 


+ 构建 请 求 参数 
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data = ( 
'entry': 'weibo', 
'gateway': '1', 
"from": 17; 
'savestate': '7', 
'useticket': '1', 
'pagerefer': "http://login.sina.com.cn/sso/logout. 
php?entry-miniblog&r- 
http$3A$2F£2Fweibo.com$2Flogout. 
php$3Fbackurl", 
"wsni*- 全 页 
'suü'i su; 
'service': 'miniblog', 
'servertime': servertime, 
'nonce': nonce, 
'pwencode': 'rsa2', 
'rsakv': rsakv, 
"sp": sp; 
'sr': '1366*768', 
'encoding': 'UTF-8', 
'prelt'; "115%; 
'url': 'http://weibo.com/ajaxlogin. 
php?framelogin-1&callback- 
parent.sinaSSOController.feedBackUrlCallBack', 
'returntype': 'META' 
) 
# 用 户 登录 
login url = 'http://login.sina.com.cn/sso/login. 
php?client-ssologin.js(v1.4.18)" 
login page - session.post(login url, data-data) 
login loop - (login page.content.decode ("GBK")) 
+ 网 页 跳 转 URL， 获 取 用 户 信息 
pa = r'location\.replace\ ([NV'"] (.*2) [N' "]V) " 
loop url - re.findall(pa, login loop)[0] 
login index - session.get(loop url) 
uuid = login index.text 


uuid pa = r'"uniqueid":"(.*2?)""' 
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uuid res = re.findall(uuid pa, uuid, re.S)[0] 

+ 根据 uniqueid 构建 微 博 首页 URL 

web weibo url = "http://weibo.com/$s" $ uuid res 

weibo page - session.get(web weibo url) 

response = weibo page.text 

person info = {} 

if 'S$CONFIG' in response: 

person info['nick'] = response.split ("S$CONFIG['nick']-'") 

.split("';")[0] 


person info['watermark'] - response. 
it("$CONFIG['watermark']-'")[1].split("';") [0] 
person info['location'] - response. 


it("SCONFIG['location']-'") [1].split("';") [0] 

person info['uid'] = response.split ("$CONFIG['uid']-'") 
-split("';") [0] 

person info['domain'] - response. 
it("SCONFIG['domain']-'") [1].split ("';") [0] 

person info['oid'] = response.split ("SCONFIG['oid']-'") 
-split("';") [0] 

print(' 登录 成 功 ， 你 的 用 户 名 为 : ' + person info['nick']) 

else: 
print(' 登录 失败 ') 


return person info 





i£ name == " main ": 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 





Gecko/20100101 Firefox/41.0' 


headers - ( 
'User-Agent': agent 
) 
$ 代理 IP 
proxies = {} 
+ 新 建 会 话 
session = requests.session() 
user info = login('13435423143','xxxxxx') 
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16.3 用 户 登录 


〈 带 验证 码 ) 














16.3 节 已 实现 微 博 用 户 登录 ， 如 果 要 实现 多 账号 批量 登录 ， 那 么 需要 使 用 代理 IP 
实现 ， 否 则 同一 个 IP 登录 多 个 账号 ， 账 号 很 容易 被 网 站 查封 。 在 使 用 代理 IP 登录 微 
博时 ， 有 可 能 遇 到 验证 码 验 证 的 问题 ， 为 解决 验证 码 验 证 问题 ， 我 们 在 浏览 器 上 设置 








代理 他， 如 图 16-8 所 示 。 


















































gs @ Internet iie 
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16-8 设置 代理 IP 


设置 代理 耳 之 后 ， 返 回 微 博 登录 界面 ， 可 以 看 到 登录 界面 出 现 验证 码 ， 如 图 


16-9 所 示 。 


打开 开发 者 工具 ， 查 看 请 求 信息 进行 分 析 ， 


找到 验证 码 图 片 请 求 信息 ， 


232 





tá 帐号 登录 
如 图 16-10 所 示 。 


只 13435423143 


sess Q 








图 int 





请 输入 验证 码 


Tanga 











16-9 带 验 证 码 微 博 登录 











第 16 xx 














le data URLs. All 





X Headers | Preview Response Cookies Timing 


XHR JS CSS (G Media Font Doc WS Manifest Other 





Y General 


Request Method: GET. 

Status Code: @ 209 ok 

Remote Address: 111.13.109.27:80 

Referrer Policy: no-referrer-when-doungrade 
> Response Headers (13) 
> Request Headers (8) 
Y Query String Parameters 

r: 45419089 

so 

p: yf-2969a36bb6b7e90a23b83b05441954ee7fc5 


View source view 





Request URL: https://login.sina.com.cn/cgi/pin.php?r-45419089&s. 


-08p-yf -2969a36bb5b7e90223b83b05441954c07fc5 


URL encoded 








图 16-10 图 片 验证 码 请 求 信息 


从 图 16-10 中 看 到 有 三 个 请 求 参数 : r 是 一 个 随机 数 ， 生 成 的 规律 不 固定 ，s 是 一 





个 固定 数字 ; p 是 一 个 不 可 知 的 数据 ， 需 要 找 出 该 数据 的 来 源 。 


再 分 析 登 录 前 的 加 密 信息 〈prelogin) 是 否 也 发 生变 化 ， 如 图 16-11 所 示 。 














Filter C) Hide data URLs (A)| xe JS CSS Img Media Font Doc WS Manifest Otl 
[Name X Headers | Preview | Response Cookies Timing 

non ^| v sinassocontroller.prelogincallBack({retcode: 0, servertime: 19 
[ | umjson exectime: 18 


[- getDevicelnfo? cbFunction-fn b. 
[ ] egi UATrack[[2398798018866.3. 
a json?trii =1&wi 


is_openlock: 6 
lm: 1 
: "H9M43U" 
f -2969a36bb6b7e90a23b83b05441954ee7fc5" 


pubkey: "EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245, 
retcode: 9 

rsakv: "1330428213" 

servertime: 1509181691 

showpin: 1 

smsurl: "https://login.sina.com.cn/sso/msglogin?entry-weibo&| 

















[E] push count json?trim null- 18wi 
egi! UATrack[2398798018866.3. Ml 
国 login.ph 


yum z 

















pp?client-ssologin js(v1.4 
- " 








图 16-11 带 验证 码 的 登录 信息 
对 比 图 16-11 与 图 16-2, 





发 现 带 验证 码 的 登录 前 加 密 信息 中 的 数据 多 了 


showpin. is openlock 和 Im; 再 与 图 16-10 对 比 ， 发 现 图 16-11 中 pcid 的 数据 与 图 


16-10 中 p 参数 的 值 相同 。 
结合 上 述 分 析 : 


(1) 访问 加 密 信 息 ， 根 据 返 回 





内 容 进 行 判断 ， 如 果 存 在 showpin、is_openlock 


和 lm 数据 ， 就 说 明 当 前 登录 需要 验证 码 识别 。 
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bu 




















(2) 如 果 存 在 验证 码 ， 就 先 下 载 验 证 码 图 片 ， 再 进行 下 一 步 的 用 户 登录 ; 否则 


直接 执行 16.2 节 的 代码 。 


下 载 验证 码 图 片 的 代码 如 下 : 


def get_img(Pcid) : 


url = 'https://login.sina.com.cn/cgi/pin.php?r-$s&s-0&p-$s' 


$(str(math.floor(random.random() * 100000000)),pcid) 
resp = session.get (url) 


verify code path - '$s.png' $ (str(int(time.time() * 1000))) 


f = open(verify code path, 'wb') 
f.write(resp.content) 
f.close() 


return verify code path 


在 函数 get imgO 中 ， 参 数 pcid 由 加 密 信息 的 pcid 传递 ， 最 后 函数 返回 





的 是 图 片 


的 相对 路 径 。 完 成 验证 码 下 载 后 ， 接 着 分 析 带 验证 码 的 登录 请 求 ， 如 图 16-12 所 示 。 























一 
Name X | Headers | Preview Response Cookies Timing 
J E —— 
B getDevicelnfo? cbFunction- i T. 
egif?UATrack|[23987980188 qrcode flag: false 
push count.json?trim null-. useticket: 1 
| prelogin.php?entry-weibo&. pagerefer: 
pcid: yf -2969a36bb6b7e90a23b83b05441954ee7fc5 
[~] pin.php?r2454190898:s- 08. d 
loor: xk4yc 
push count;json?trim null. vsnf: 1 
egif?UATrack||23987980188 su: MTMOMzUOMjMxNDM- 





[C] legin.php?client-ssologin js service: niniblog 


PEM - servertime: 1509181723 
ajaxlogin.php?framelogin- 1 nonce: H9MN3U 


pin.php?r-927471018:5-08 pwencode: rsa2 





1] 





push count;json?trim null. rsakv: 1330428213 





push countjson?trim null-. 





push count;json?trim null-. sr: 1280*720 


encoding: UTF-8 





push count.json?trim null: 























sp: 507adca2ce645fd22abf436d4020f 306b86642654872596a50707 
9637e12c1d80345fa01cc59c4ec4cca9b795d610d49c4772a79713d85 


push countjson?trim null-. prelt: 85 
€ - url: http://weibo.com/ajaxlogin.php?framelogin-1&callback- 
180 requests | 3.2 MB transferre... returntype: META 








16-12 带 验证 码 用 户 登 录 


从 图 16-12 和 图 16-4 的 请 求 参 数 对 比 得 出 ， 图 16-12 的 请 求 参数 多 了 pcid 和 





door, pcid 是 来 自 加 密 信 息 里 的 响应 数据 ，door 是 验证 码 图 片 内 容 。 
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根据 上 述 分 析 ， 总 结 如 下 : 


(1) 如 果 带 有 验证 码 ， 加 密 信息 的 响应 内 容 就 含有 showpin、is_openlock 和 lm 
数据 。 

(2) 判断 加 密 信 息 的 响应 内 容 是 否 需要 下 载 验证 码 图 片 。 

(3) 下 载 图 片 验 证 码 后 ， 需 要 对 验证 码 进行 识别 。 

(4) 在 用 户 登 录 请 求 中 ， 带 验证 码 的 登录 需要 添加 参数 pcid 和 door。 


在 上 面 的 分 析 要 点 中 ， 目 前 还 没 解决 验证 码 识别 的 问题 。7.3 节 讲 述 了 第 三 方 平 
台 如 何 识别 验证 码 ， 因 此 本 项 目 使 用 第 三 方 平 台 提 供 的 API 解决 验证 码 识别 问题 ， 将 
API 代码 命名 并 保存 在 文件 weibo verify code.py 中。 在 16.2 节 的 代码 中 加 入 验证 码 
处 理 功 能 ， 代 码 如 下 : 


import requests 

import time 

import urllib 

import base64 

import rsa 

import binascii 

import re 

+ 接 入 第 三 方 API 识别 验证 码 


from weibo verify code import code verificate 


# 登录 前 准备 
def get server data (su): 
# 构建 URL 
prelogin url = 'https://login.sina.com.cn/sso/prelogin. 


php?entry-weibo&callback- 
sinaSSOController.preloginCallBack&su-$s&rsakt-mo 
d&client- 
ssologin.js(v1.4.19)& -$s' $(su, str(int(time. 
time() * 1000))) 
pre data res - session.get(prelogin url, headers-headers, 
proxies-proxies) 
# 将 响应 内 容 转换 为 字典 格式 
sever data = eval(pre data res.content.decode ("utf-8"). 


replace ("sinaSSOController.preloginCallBack", '')) 
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b 


return sever data 


+ 账号 加 密 
def get su(username): 
4 使 用 urllib.parse.quote _ plus 对 email 地 址 或 手机 号 码 的 特殊 符号 进行 
编码 处 理 
+ 然后 使 用 base64 加 密 
username quote = urllib.parse.quote plus (username) 
username base64 - base64.b64encode (username quote. 
encode ("utf-8")) 


return username base64.decode ("utf-8") 


# ZEME, servertime, nonce, pubkey 是 来 自 图 16-2 的 数据 
def get password(password, servertime, nonce, pubkey): 

rsaPublickey - int(pubkey, 16) 

+ 创建 公 钥 

key = rsa.PublicKey (rsaPublickey, 65537) 

+ 拼接 明文 

message = str(servertime) + '\t' + str(nonce) + '\n' + 

str (password) 

message = message.encode ("utf-8") 

+ 加 密 

passwd = rsa.encrypt (message, key) 

# 将 加 密 信息 转换 为 16 进 制 

passwd = binascii.b2a hex (passwd) 

return passwd 


# 下 载 验证 码 图 片 
def get img(pcid): 
url = 'https://login.sina.com.cn/cgi/pin.php?r-$s&s-0&p-$s"' 
$(str(math.floor(random.random() * 100000000)),pcid) 


resp = session.get (url) 


verify code path - '$s.png' $ (str(int(time.time() * 1000))) 
f open(verify code path, 'wb') 


f.write(resp.content) 
f.close() 


return verify code path 
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# 用 户 登录 
def login(username, password): 
4 获取 servertime、nonce、rsakv、su 和 sp 
su = get su(username) 
sever data = get server data(su) 
servertime - sever data["servertime"] 
nonce - sever data['nonce'] 
rsakv = sever data["rsakv"] 
pubkey - sever data["pubkey"] 
sp = get password(password, servertime, nonce, pubkey) 
# 构建 请 求 参 数 
data = ( 
'entry': 'weibo', 
'gateway': '1', 


"Eroa": **, 

'savestate': '7', 

'useticket': '1', 

'pagerefer': "http://login.sina.com.cn/sso/logout. 


php?entry-miniblog&r- 
http$3A$2F$2Fweibo.com$2Flogout. 

php$3Fbackurl", 

"ysn": *'3*; 

sauni su, 

'service': 'miniblog', 

'servertime': servertime, 

'nonce': nonce, 

'pwencode': 'rsa2', 

'rsakv': rsakv, 

"ap": sp, 

ssr": *3366*768*, 

'encoding': 'UTF-8', 

'prelt':. *115*, 

'url': 'http://weibo.com/ajaxlogin. 
php?framelogin-1&callback- 

parent.sinaSSOController.feedBackUrlCallBack', 
'returntype': 'META' 
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) 
+ 判断 是 否 存 在 验证 码 
if 'showpin' in sever data.keys(): 
+ 添加 请 求 参数 
pcid = sever data['pcid'] 
data['pcid'] = pcid 
+ 下 载 验证 码 图 片 
verify code path = get img (pcid) 
+ 第 三 方 平台 识别 验证 码 
verify code = code verificate(yundama username, yundama 
password, verify code path) 


print(verify code) 


data['door'] - verify code 
# 用 户 登 录 
login url = 'http://login.sina.com.cn/sso/login. 


php?client-ssologin.js(v1.4.18)" 
login page - session.post(login url, data-data) 
login loop - (login page.content.decode ("GBK")) 
# 网 页 跳 转 URL， 获 取 用 户 信息 
pa = r'locationN.replaceNV([N' "] (. *2) [N' "]V) " 
loop url = re.findall(pa, login loop) [0] 
login index - session.get(loop url) 
uuid - login index.text 
uuid pa = r'"uniqueid":"(.*?)"' 
uuid res - re.findall(uuid pa, uuid, re.S)[0] 
# 根据 uniqueid 构建 微 博 首 页 URL 
web weibo url = "http://weibo.com/$s" $ uuid res 
weibo page - session.get(web weibo url) 
response - weibo page.text 
person info = {} 
if 'SCONFIG' in response: 


person info['nick'] = response.split ("SCONFIG['nick']-'") 
[1].split("';") [0] 
person info['watermark'] = response. 
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split("SCONFIG['watermark']-'")[1].split("';") [0] 
person info['location'] - response. 
split("SCONFIG['location']-'")[1].split("';") [0] 
person info['uid'] = response.split("$CONFIG['uid']-'") 
[1].split("';")[0] 
person info['domain'] - response. 
split("SCONFIG['domain']-'")[1].split("';") [0] 
person info['oid'] = response.split("S$CONFIG['oid']-'") 
[1].split(""';")gp0] 
print(' 登录 成 功 ， 你 的 用 户 名 为 : ' + person info['nick']) 
else: 
print(' 登录 失败 ') 
return person info 
if | name -- " main ": 
# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 


headers = ( 





'User-Agent': agent 
) 
+ 代理 IP 
proxies = { 
'http': "http://113.214.13.1:8000/" 
) 
# 新 建 会 话 
session = requests.session() 
+ 第 三 方 平 台 账号 密码 
yundama username = "XXXXXX 
yundama password = 'xxxxxx' 
user info = login('13435423143','xxxxxx') 


程序 运行 结果 如 图 16-13 所 示 。 
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F:WPython Wython. exe F:/1K1S/weibo Software/weibo Software/weibo login.py 
uid: 53927 

balance: 1472 

cid: 1573126148, result: VMYMK 

VMYMK 

登陆 成 功 ， 你 的 用 户 名 为 : xy-wj 


Process finished with exit code 0 











图 16-13 带 验 证 码 的 微 博 用 户 登 录 结 果 


16.4 关键 字 搜 索 热门 微 博 


完成 用 户 登录 后 ， 接 着 实现 关键 字 搜 索 热门 微 博 ， 该 功能 可 以 让 我 们 及 时 掌握 微 
博 最 新 的 咨询 以 及 各 个 行业 的 动态 走向 ， 巧 妙 运 用 这 个 功能 等 于 拥有 了 微 博 平 台 的 大 
数据 。 

在 浏览 器 中 打开 网 站 http:/s.weibo.com/， 以 “# 王者 荣耀 #” 为 关键 字 ， 如 图 
16-14 所 示 。 











XU: |# 王 者 荣耀 # 
转 全 部 Om) ORA OWA OURA ON 
: 02S Oamh OARA OSR OAMI 


asa v| 至 [mwsnm | mmehs v 





16-14 微 博 高 级 搜索 功能 


每 次 搜索 网 页 都 会 重新 刷新 一 裔 ， 说 明 搜 索 结果 是 由 后 台 直 接生 成 的 。 我 们 直接 
分 析 Doc 标签 的 请 求 信 息 ， 如 图 16-15 所 示 。 
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C) Hide data URLs Al | XHR JS CSS img Media Font (Bg WS Manifest Other 





X [Headers | Preview Response Cookies Timing 








Y General 
Request URL: http://s .weibo. com/weibo/X2523%25E7%258EX2588%25E8%2580X2585%25E8X258D%25A3X25F8%2580%2580%2523Āregion=-custom: 44: 1&typeal -18subal]-1&page-1| 
Request Method: GET 
Status Code: ® 209 OK 
Remote Address: 123.125.104.93:80 
Referrer Policy: no-referrer-uhen-doangrade 

> Response Headers (14) 

> Request Headers (9) 











El 16-15 微 博 高 级 搜索 请 求 信息 
请 求 参数 分 析 如 下 : 
(D URL 含有 “%2523%25E7%”， 说 明 URL 部 分 数据 进行 了 编码 处 理 ， 编 码 
内 容 有 可 能 是 关键 字 , 可 以 使 用 urllib.parse.unquote_plus 对 URL 的 编码 部 分 进行 还 原 。 
(2) region 是 地 区 内 容 ，44 代表 广东 省 ，1 代表 广州 。 
(3) page 代表 页 数 ， 一 个 关键 字 最 多 返回 50 页 内 容 。 
(4) 其 余 的 参数 是 固定 不 变 的 。 





分 析 响 应 内 容 ， 发 现 网 页 显示 的 内 容 在 响应 内 容 中 无 法 找到 ， 但 细心 观察 就 会 发 
现 ， 网 页 上 显示 的 中 文 内 容 在 响应 内 容 中 都 变 成 乱码 ， 而 且 存放 在 JavaScript 中 ， 如 
图 16-16 所 示 。 


ANE rare 1 ENAA | 


iole Sources Network Performance Memory Application Security Audits 
E Cx B Group by frame | @ Presevelog B) Disable cache | B Offline Online Y 
Ej Hide data URLs Al | XHR JS CSS img Media Font 国 Ws Manifest Other 

















Headers [Preview | Response Cookies Timing 。 


i| eseriptostk && si.pageletA && sTk.pageletn.visw 





s M js pl volto Vhothand. Js?vorsion-20171925173500" ] 
class-V'WB cardwrap 5_bg2\">\ncdiv class-V'sean 
""pyerseripto 

js V/pl V/wei boV/directtop. jsPversion-201710251735| 
pl VweiboVdirect.js?version-20171025173500" ]," 
«script» 

Pl -comuon, bottosTaput” 'apps V search v6V js V/pl common bot tonTnput.. js?version-201710 
common search! [apps V'search. v6 js V/pl V/comson /searchi story. js?version-20, 
"pl common base","js":["apps V'search v6V/ js V/pl V.comsonV/changeL anguage. js?version-2017102517 





weibo direct" 
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16-16 查找 微 博 内 容 








合 分 析 ， 实 现代 码 如 下 : 


def collect (keyword, pagenumber=1): 


# 关键 字 编 码 


keyword change = urllib.parse.quote plus (keyword) 


keyword change = urllib.parse.quote plus (keyword change) 
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now = datetime.datetime.now().strftime('£Y-£m-$d') 
+ 构建 URL， 地 区 默认 广东 省 广州 市 


url='http://s.weibo.com/weibo/'+keyword change*t'&region- 





custom:44:1lgtypeall=l&suball=l&page=%s' $(str(pagenumber) 
r= session.get (url) 
# 解决 中 文 乱码 
get value = r.content.decode ('unicode escape').replace('MV/', '/') 
f = open('data.txt', 'w' ,encoding-'utf-8') 
f.write(get value) 
f.close() 


上 述 代码 需要 用 户 登 录 后 才能 运行 ， 我 们 将 搜索 结果 记录 在 “data.txt” 文 件 中 ， 
打开 文件 并 对 内 容 进行 分 析 ， 如 图 16-17 所 示 。 


ly classc"fage"» 
<a suda-data-"key=tblog_search weiboivalue-weibo ss 4 icon" 
J/wnibo.com/lyle?refer £1ag71001030103 " title=" iK 











'_blank"> 





d " alt-"fiR" width-"50" height-"50" usercard- 
id21649763572&usercardkeysweibo mp&refer flagz1001030103 " class 

</div> 
<div class-"content clearfix" node-type="like"> 





face_radius" ></a> 


















”Fargerr*_blankw ritle-" 和 让" 
Suda-dataz keystblog search weibo&valuesweibo s 






f "httpi//verified.weibo.con/verify" t 
[vip.weibo.com/peraonal?fromesearch" t 


el ,sinaimg. cn/squaze/625564£4gyL£kxfeOy52320qolbftfj. jpg" action-data- 
action-type-"fl pics" suda-data-"key-tblog search weibo&value-weibo ss 4 pic"/ 





aiB plo dpo? bigosat 
"i sor" so-"bEtp:/ /mw3. sinaing. cn/squaze/625564£ágyl fkzfwOlwibj20qolbfn3l.jpg" action-data- 
425564£4gyi fksfuDlwibjdOqolbfnii" action type "fl pice" suda-data-"key-tblog search weibosvalue-weibo ss 4 pic"/ 








图 16-17 相关 微 博 内 容 


每 一 条 微 博信 息 都 存放 在 «div class = "content clearfix" node-type = "like"> 中 ， 在 
标签 内 ， 可 以 分 别 找 出 微 博 用 户 、 发 布 内 容 、 发 布 图 片 和 发 布 视频 所 在 位 置 。 








COD 微 博 用 户 在 <a> 标签 ， 属 性 class="W_texta W fb". 

(2) 发 布 内 容 在 <p> 标签 ， 属 性 class="comment txt"。 但 有 一 种 特殊 情况 是 ， 
文字 内 容 过 长 的 时 候 ， 需 要 单 击 “ 展 开 全 文 ” 才 能 看 到 完整 的 内 容 ， 而 “展开 全 文 ” 
存放 在 «p» 里 面 的 <a> 标签 hre 伟 ”javascript:void(0);” H, 在 浏览 器 中 单 击 “展开 全 文 ” 
触发 的 是 一 个 Ajax 请 求 ， 如 果 获 取 全 文 内 容 ， 就 需要 爬 取 Ajax 请 求 。 











Er 
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(3) 发 布 的 图 片 在 <img> 标签 ， 属 性 是 class="bigcursor"。 
(D 发 布 的 视频 在 <a> 标签 ， 属 性 class 含有 "WB video". 


已 经 确定 采集 数据 的 具体 位 置 ， 实 现代 码 如 下 : 


from bs4 import BeautifulSoup 

import re 

import urllib 

import csv 

import requests 

import time 

import datetime 

from concurrent.futures import ThreadPoolExecutor 


# 多 线程 疏 取 视频 文件 
def thread video(get video value, video path): 
if get video value: 
url - str(get video value).split('video src-')[ 
1].split('cover img-') [0] [0:-1] 
url = urllib.parse.unquote(url) + '-' + str(int(time. 
time() * 1000)) 
if 'http:' not in url: 
url = 'http:' + url 
tryt 
temp value - requests.get (url) 
video = open('video/' + video path, 'wb') 
video.write (temp value.content) 
video.close() 
except BaseException: 


pass 


* HAFEERLE EE 
def thread img(k, img path): 
4t 'http:' in k['src*']: 
img r = requests.get (k['src']) 
else: 


img r = requests.get( 'http:'* k['src']) 
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img = open('image/' + img path, 'wb') 
img.write(img r.content) 


img.close() 


* 采集 微 博 


def 


-custom: 


collect (keyword, session, pagenumber-1): 

# 关键 字 编 码 

keyword change = urllib.parse.quote plus (keyword) 

keyword change = urllib.parse.quote plus (keyword change) 

now = datetime.datetime.now() .strftime ('%Y-%m-%d') 

* 构建 URL， 地 区 默认 广东 省 广州 市 

url = 'http://s.weibo.com/weibo/' + keyword change + '&region 
44:1&typeall-1&suball-1&page-$s' $ (str(pagenumber)) 

r = session.get (url) 

+ 解决 中 文 乱码 

get value = r.content.decode('unicode escape').replace('MV', '/') 
* 清洗 多 余数 据 

index = get value.find('«div class-"face"»') 

get value - get value[index::] 

soup = BeautifulSoup(get value, 'html5lib') 

# 获取 当 页 全 部 用 户 信息 


get info = soup.find all('div', re.compile('content clearfix')) 


for i in get info: 
# 获取 用 户 信息 
get user = i.find('a', re.compile('W texta W fb')) 
user name = get user.getText().replace('Mn', '').strip() 
# 获取 文字 全 部 内 容 
get comment = i.find('p', re.compile('comment txt')) 
# 文字 过 长 需要 特殊 处 理 


get long comment = get comment.find('a', href-re. 


compile('javascript')) 


if get long comment: 


get url = 'http://s.weibo.com/ajax/direct/ 


morethan140?'-c get long comment ['action-data'] + '& t-0& rnd-' + 
str(int(time.time() * 1000)) 
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get comment temp = temp value.json() 

get comment = get comment temp['data']['html'] 

get comment = BeautifulSoup(get comment, 'html5lib') 
+ 输出 全 部 文字 内 容 
comment = get_comment .getText() .replace(" Mnt, '"'yostript) 


comment = comment.encode("utf-8", 'ignore'). 


decode('UTF-8', 'ignore') 


path) 


# 获取 图 片 
img path list 


get img value - i.find all('img', re.compile('bigcursor')) 
# 输出 多 张 图 片 
for k in get img value: 
img path = str(int(time.time() * 1000)) + '.jpg' 
img path list = img path list + img path + '/' 
pool - ThreadPoolExecutor (max workers-1) 
pool.submit(thread img, k, img path) 


+ 输出 视频 
video path = '' 
get video value - i.find('a', re.compile('WB video')) 
if get video value: 
pool - ThreadPoolExecutor (max workers-1) 
video path = str(int(time.time() * 1000)) + '.mp4' 


pool.submit (thread video, get video value, video - 


* 生成 csv 
f = open('data.csv', 'a', newline-'', encoding-'gb18030') 
writer - csv.writer(f) 


writer.writerow([user name, comment, img path list, 


video path, now]) 


f.close() 


整 段 代码 共 由 以 下 三 个 函数 组 成 。 


thread img): 多 线程 下 载 图 片 。 
thread video: 多 线程 下 载 视频 。 
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* collect): 实现 微 博 采集 ， 函 数 参 数 keyword, session 和 pagenumber 分 别 是 
关键 字 、 带 有 用 户 信息 的 会 话 对 象 和 采集 页 数 。 因 为 本 节 的 代码 存放 在 文件 
weibo collect.py 中 ， 与 用 户 登 录 的 代码 不 在 同一 个 文件 ， 所 以 需要 将 带 有 用 
户 信息 的 会 话 对 象 传递 给 该 函数 。 


函数 collect() 实现 的 功能 依次 如 下 : 


(1) 对 函数 参数 keyword 执行 两 次 URL 编码 。 

(2) 构建 请 求 链接 并 发 送 请 求 ， 对 获取 请 求 后 的 响应 内 容 进行 编码 处 理 。 

G) 对 响应 内 容 进 行 清洗 处 理 ， 采 集 微 博 用 户 信息 、 文 字 内 容 、 图 片 和 视频 。 
文字 过 长 时 ， 需 要 向 网 站 发 送 请 求 获取 完整 的 文字 内 容 ; 图 片 和 视频 分 别 调用 函数 
thread img) 和 thread video0， 使 用 多 线程 下 载 文件 ， 提 高 怜 取 速度 。 


代码 运行 需要 结合 16.3 节 的 登录 功能 一 起 使 用 ， 将 本 节 代 码 存放 在 文件 weibo_ 
collectpy 中 ， 与 文件 weibo login.py 同一 目录 ， 当 前 目录 下 必须 有 文件 夹 image 和 
video， 否 则 下 载 的 图 片 和 视频 无 法 保存 。 打 开 修 改 微 博 登录 文件 weibo login.py, fX 
码 如 下 : 


if name -- " main ": 


# 构造 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 


headers = ( 





'User-Agent': agent 
} 
# 代理 IP 
proxies = {} 
# 新 建 会 话 
session = requests.session() 
# 第 三 方 平 台 账号 、 密 码 
yundama username = 'xxxx' 
yundama password = 'xxxx' 
user info = 1login('13435423143',' xxxx') 
# 导入 微 博 采 集 功 能 


from weibo collect import collect 
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# emu 10 页 数据 
for i in range(10): 
collect ('# EHRM #+', session, i) 


16.5 发 布 微 博 


发 布 微 博 是 在 浏览 器 上 编辑 好 要 发 布 的 内 容 ， 然 后 单 击 “ 发 布 ”按钮 进行 发 布 。 
微 博 中 有 很 多 可 以 编辑 的 功能 ， 如 插入 表情 、 话 题 、 图 片 、 视 频 和 定时 发 送 等 。 其 中 ， 
表情 和 话题 可 以 归纳 为 文字 内 容 。 本 节 主 要 实现 文字 内 容 、 图 片 和 定时 发 送 的 微 博 发 布 。 
在 浏览 器 上 分 别 捕捉 三 种 不 同 的 发 布 方式 的 请 求 ， 如 图 16-18~ 图 16-20 所 示 。 





























[Name X | Headers | Preview Response Cookies Timing 
push countjson?trim null 1&with dm ... > General a a a 
al 509371401985 > Response Headers (12) 
图 G9ecd707jw8eg74uetmeuj2OhsOhst9pjpg | * Request Headers (12) 
push countjson?trim null-1&with dm .. | ^ Query String Parameters (2) 
push, countjson?trim nullei&with dm .. | Y Form Data view source view URL encoded 





location: v6 content home 
text: Pythonfé tlic il 
appkey: 


module: stissue 
pub source: main - 
pub type: dialog 
isPri: 9 

to 
5 requests | 5.5 KB transferred 


R 16-18 微 博 发 布 一 一 文字 内 容 




















通过 对 比 三 种 不 同 的 发 布 方 式 的 请 求 可 以 发 现 ， 三 者 的 请 求 链接 一 致 ， 唯 一 区 别 
在 于 请 求 参 数 的 差异 。 请 求 参 数 的 差异 如 下 : 





CD 对 比 图 16-18 和 图 16-19 的 请 求 参数 ， 图 16-19 多 出 参数 updata img num, 
该 参数 是 所 发 布 的 图 片 的 数量 。 参 数 pic id 的 值 非 空 ， 从 参数 名 分 析 ， 参 数 pic_id 应 
该 是 图 片 的 id。 
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bu 





[ 69ecd707gy1f0m772vnjj21640ez0u1 jpg 
E push countjson?trim null- 1with dm . 











A requests | 125 KB transferred 


X [Headers | Preview Response Cookies Timing 


> Response Headers (12) 
> Request Headers (12) 
> Query String Parameters (2) 
Y Form Data 
location: v6 content home 
text: Pythonfe Hi P4 — 
appkey: 
style type: 1 
pic id: 69ecd707gy1f10m795sc2j2@qkobdjvg |69ecd707gy1f1@m772vnjj21640ez0u1 
tid: 
pdetail: 
gif ids: 
rank: o 
rankid: 
module: stissue 
pub source: main_ 
updata img num: 2 
pub type: dialog 
isPri: © 
to 


view URL encoded 








16-19 微 博 发 布 一 一 


[LETT 





x _rnd=150937161 





3 requests | 13.2 KB transferred 






回 eaecAddOjw1ebh!rzi0ztj2050050weo.jpg 
[.] push_countjson?trim_null=1&with_dm_- 





i 


字 内 容 和 














1825 


> Query String Parameters (2) 
Y Form Data 
location: v6 content home 
text: Python du; fi —;z I Ace PH 
appkey: 
style type: 1 
ic id: 69ecd707gy1flomitiwtuj20qkObdjvg 


view source view URL encoded 





addtime: 2017-11-02 21:49 
module: stissue 

pub source: main 

updata img num: 1 

pub type: dialog 

isPri: o 

te 











(2) 对 比 图 16-18 和 图 16- 


16-20 微 博 定时 发 布 


张 图 片 ， 图 16-19 的 参数 pic_id 将 每 张 图 片 之 间 用 “|” 隔 开 。 


G) 参数 location 和 text 分 别 是 用 户 信 息 和 发 布 的 文字 内 容 ， 其 他 参数 都 是 固 


定 不 变 的 。 


经 过 上 述 分 析 ， 现 在 无 法 确定 pic id 的 数据 来 源 ， 该 参数 如 果 是 图 片 的 id， 那么 
在 添加 图 片 的 时 候 ， 网 站 应 该 会 对 添加 的 图 片 生成 一 个 图 片 id， 用 于 标识 图 片 。 为 了 





验证 猜想 ， 我 们 捕捉 添加 图 片 时 
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所 触发 的 请 求 信息 ， 如 图 16-21 所 示 。 


20 的 请 求 参数 ， 图 16-20 多 出 参数 addtime， 该 参数 
是 发 布 时 间 ; 再 对 比 两 者 的 参数 pic id 和 updata img num, K 16-19 比 图 16-20 多 一 
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Name X | Headers | Preview Response Cookies Timing 
[E] TB2vidAj2DH8KJjy 
口 sgiPuArmaddle464; 
[E] TB20LwfqwoQMeljy... 









Y General 
Request URL: https://picupload.weibo.com/interface/pic upload.php?cb-httpsX3AX2F 
2Fweibo.comix2FajX2FstaticX2Fupimgback.htmlX3F wvi3DSX26callbackz3DSTK ijax 15151 
72524699338mime-image2F jpegkidata-baseó4&ur1-weibo. comi2F5316120128markpos-1&log| 





E] img default png?id. c-A&nick-X40xy-wj&marks-oüapp-miniblog&s-réxt&pri-e&file source-i 
E] ico. ayerpngzid=20. Request Method: POST 
E] leading git Status Code: 9 362 Moved Temporarily 


Remote Address: 127.0.0.1:8858 
Referrer Policy: no-referrer-uhen-downgrade 
> Response Headers (8) 
> Request Headers (13) 
Y Query String Parameters view source view URL encoded 
L] push_count;json?tri... cb: https://weibo.com/aj/static/upimgback.html?_wv=5&callback=STK_ijax_151517252 


[E push_count;json?tri... 469933 
mime: image/jpeg 


E] upimgbacichtmE w. 
[I 69ecd707gy1fn68i6s... 
E push count sonzuri. 


L.] Push. count;son?tr.. 








h. data: base64 
E] push countjsonttr url: weibo.com/531612012 
[ unread hintjson?so. markpos: 1 
E push countjson?tr logo: 1 
ush countjson?tri nick: Gxy-vi 
Or cw, marks: © 
E push count json?tri. app: miniblog 
[ push countjson?tri. | — s rdxt 
[E] push count json?tri. pri: 9 








口 push countjson?tri.. file sour 1 





图 16-21 图 片 添加 信息 


从 图 16-21 的 请 求 信息 分 析 ， 请 求 链接 是 GET 请 求 ， 请 求 方法 是 POST 请 求 ， 
而 且 请 求 参数 已 在 请 求 链接 上 ， 说 明 该 请 求 POST 的 数据 不 是 请 求 参 数 ， 而 是 POST 
图 片 文件 ,为 了 进一步 验证 猜想 ,我们 使 用 Fiddler 分 析 该 请 求 信息 ， 如 图 16-22 所 示 。 





1: con 
'Onnection: keep-alive 
ontent-Length: 368765 
ache-Control: max-age=o 
gin: 
lupgrade-Insecure-Requests: 1 
Tepic e 
user-agent: 1a/5.0 (windows NT POWA) Applewebkit/537.36 (XHTML, Tike Gecko) Chrome/63.0.3218.0 Safari/537.36 





ccept: text/html a iicátion/xhtmi somi app ication/xa1; qro. 5, image /webp, iuge /apng, */ 73 q0, 
erer: DERS: Dueso, $99/53161:012/nonc 
cept -Enct gzip, ate, 


cept-Language: zh-CN,zh;q=0.9 
rookie: SINAGLOBAL=6464114471908. 122. 1513049031838; login sid tebb7b6536sfsc70699b9daciabfé6bcas; cross origin proto=SSL; _s_t 


|bes_data=ivBoRwOKGgoAAAANSUhEUgAAAu4AAAd2CAY; FD AAAACXBINXMAAAS" EwEAmpwY) BQaG90b3NOb3AQSUND: pbGUAAMj arf 
'éykfi NNS JRNG2RVAX FAD LTE ATA A A IND ZTZVPKE NAKAR TOR TOUR y SOC 1 PERD Tel 38 AB MEF Ada 





2 7OOFwWqSbPcCS5rO5Z! 2jYb9w: [GAXQS! 9W2BTO71 iSQTtF GFDi 
ede reed Pe S E AEE TETTE 
ewKnqbAAX. 'KwWKADQAMHOHy phb2 ; 


'eQnr. IV tm SUGonc or SEK 1K2| 
esi NaYnbJIsuNT4RVciPZSQJt3emYNIRtIrIuzTeNLyOZpkVMnVCdi UDaGPOKr 27952842 XRL S p2wa8z glYAN4pSQS aacvh l UkyUr | 


j1) h7 cz cSOmMEMw 
Eada I ar JEP IVS EV ma RTALR Xe of rat do DU AUI REY e ATE d tul 
jti 

B PXS SIr VySuhi] ot 1d URFGARAMAARAFTYDA € AAAAAAC AAA 


G6aUz f1OAMOSBR Rs EDWAAAAAAABDUA 
odzbaTer exenk dne saa eres time bt 2 yrn] 2ywOD ZWF ATENNZFNZONZFNZF ONZE SINE xW r IH dy XO OOCK IC6UZS İNV IKF Ir Ures Soreg2ss 


or 
[2FBIqu2F! A 4302 dedutisulOSbN240x: 3mz POA 
[28Nyvq197witbirkDQmQKfubz sqnLhH7 3u3w2BZvyvzu4I4nU5VYy1frmxfeSTVbcfHIRVmEVm3ZS1Xr75IRGO2f19TUaOfOrDXI4HGPr cos HCVCATHEAOJUD 
EE QNSSN2FPCHPEZ APQHAXDLZGGeLDIQN2BQIVrMhhFCAEOLIAKCB7SXKDRAKhVTCYZROHnOGIRXUSUywEHFUHKS evrz c evt nami xk chvfrsHhuGluqt 
[285 94Pb7 S65 PAd2r NQasgvF IUAIRTtSJNi4C IMK1rrSozVigsFmzfvhOXL IwwFeddkvRBL &z ADPJZLXR 3d28P SpUvOO 10e; nt 
[2Bfksjubzx2FN2Fvv3dxzF93aqasnorGsSepwzfvhixr zRX2FdvixYuxceNG]S1 4ceMGAGDZ SmimvOOS: KNAXAYOVCOZ: brmaD 


IOTZeCOVGW9OTnQGFR ALTA 
[zFr s1q1bRde1QcCookvvwescr HG. 9dsOanaGPdcL gez YZCoaDy7 Jut gazWCR dt qodhF Ht EVEQ920059122 3yDyaS Qu; 9VE%2F TOW T yosR Yvdb | cZmoP j 46qX2FL1 








图 16-22 图 片 添加 信息 


从 图 16-22 看 到 ， 图 片上 传 POST 的 数据 是 b64_data， 该 数据 是 使 用 base64 对 图 
片 的 字 节 流 加 密 而 成 的 。 综 合 上 述 分 析 ， 实 现 微 博 发 布 功能 需要 实现 有 两 部 分 功能 : 
第 一 是 实现 图 片上 传 , 获取 图 片 这 第 二 是 根据 条 件 判 断 选 择 微 博 发 布 方 式 。 代 码 如 下 : 
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Fu 


import base64 
import time 
# 获取 上 传 图 片 id 
def upload pic(session, watermark, nick, file list-[]): 
pic id list - [] 
3 判断 图 片 数 量 是 否 在 1 一 9 之 间 
if len(file list)»0 and len(file list)«10: 
for i in file list: 
url = 'https://picupload.weibo.com/interface/pic 
upload.php?cb-https$3A$2F 
$2Fweibo.com$2Faj$2Fstatic$2Fupimgback.html$3F 
wv$3D5$26callback$3DSTK ijax '* 
str(int(time.time()*100000))-*'&mime-image$2Fjpeg& 
data-base64&url-weibo.com$2F'4 
watermark-*'&markpos-1&logo-1&nick-$40'-*nick-*'&mar 
ks-0&app-miniblog"' 
# 图 片 以 字 节 数据 流 读 取 ， 然 后 以 base64 加 密 
files-('b64 data':base64.b64encode (open (i, "rb"). 
read())] 
+ 上 传 文件 
r= session.post(url, files=files) 
print (r.text) 
+ 获取 图 片 id 
get picid-eval (r.text.split('«/script»')[1]) ['data'] 
['pics']['pic 1']['pid'] 
pic id list.append(get picid) 
return pic id list 


# AERE, pic id list 是 上 传 图 片 Id 列表 
def send(session,watermark, location, value, addtime-'',pic id 
list-[]1): 
# 构建 请 求 头 
headers = ('Referer':'http://weibo.com/'-*str(watermark)-*'/ 
home', 
'user-agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0'] 
3 构建 请 求 参数 


250 


第 16 章 项 目 实战 : 玩 转 微 博 


data = {'location': location, 'text': value, 'appkey': 
vb; style type':; "Ls "pac id'e 5* ed" e 
'pdetail': '','gif ids':'','addtime':addtime, 
thank”: "0", "'rankid'z tr, 
'module': 'stissue','pub type': 'dialog', 'pub 
sourco’: 'main ', ' t': "0°} 
# 发 送 图 片 
if pic id list: 
pic id-'' 
for i in pic id list: 
pic id += i+'|' 
+ 去 除 最 后 的 "1" 
if pic id[-1]--'|': 
pic id-pic id[0:len(pic id)-1] 


data['updata img num'] - str(len(pic id list)) 
data['pic id'] = pic id 
# 构建 URL 


url-'https://www.weibo.com/aj/mblog/add?ajwvr-6&  rnd-$s"' 


£(int(time.time()*1000)) 


r = session.post(url, data-data, headers-headers) 


if r.status code--200: 
return True 


else: 
return False 


上 述 是 本 节 实 现 的 功能 代码 ， 存 放 在 文件 weibo send.py 中 ， 整 段 代码 由 以 下 两 
个 函数 组 成 。 


e upload pic): 实现 图 片上 传 。 函 数 参 数 session, watermark, nick 和 file list: 


> session 是 带 有 用 户 登 录 状 态 的 会 话 对 象 。 
> watermark # nick 是 用 户 信息 。 
> file list 是 图 片 列 表 ， 列 表 元 素 是 图 片 路 径 。 


e send): 实现 微 博 发 布 。 函 数 参数 有 session, watermark, location, value, 
addtime 和 pic id list: 
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> session 是 带 有 用 户 登 录 状 态 的 会 话 对 象 。 

> watermark 和 location 是 用 户 信息 。 

> value 和 addtime 是 发 布 内 容 和 发 布 时 间 。 

> pic id list 是 函数 upload pic() 返回 的 图 片 id 列表 。 


send0 功能 说 明 如 下 : 


COD 需要 重新 设置 请 求 头 并 加 入 Referer 信息 ， 否 则 会 导致 发 送 失 败 ， 因 为 网 站 
做 了 检测 Referer 的 反扑 虫 机 制 。 

(2) 请 求 参数 合并 了 三 种 不 同 的 发 布 方式 ， 例 如 只 发 布 文字 内 容 ， 只 需 将 参数 
pic id 和 addtime 的 值 设置 为 空 即 可 。 若 发 布 图 片 ， 在 设置 pic_ id 的 参数 值 时 ， 则 会 
相应 地 创建 参数 updata img num. 

G) 请 求 链接 最 后 的 一 串 数字 是 当前 时 间 的 时 间 惟 再 乘 以 1000 后 取 整 所 得 。 


代码 与 16.4 节 的 运行 方式 一 样 , 打开 修改 微 博 登录 文件 weibo loginpy, 代码 如 下 : 


if name -- " main ": 

# 构造 请 求 头 

agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/ 
20100101 Firefox/41.0' 


headers = ( 





'User-Agent': agent 
) 
# 代理 IP 
proxies = {} 
* 新 建 会 话 
session = requests.session() 


+ 第 三 方 平台 账号 、 密 码 


yundama username = 'xxxx' 

yundama password = 'xxxx' 

user info = login('13435423143','xxxx') 
# 导入 微 博 发 布 模块 

from weibo send import upload pic,send 
+ 获取 用 户 信息 


watermark = user info['watermark'] 
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nick = user info['nick'] 

location - user info['location'] 

# 设置 图 片 列表 

file list-['aa.png', 'bb.png'] 

+ 获取 图 片 id 列表 

pic id list = upload pic(session,watermark,nick,file list) 

* 发 布 微 博 

send (session, watermark, location, "Python 爬虫 "，adqtime=' 
pic_id_list=pic_id_list) 


16.6 关注 用 户 


在 微 博 中 关注 用 户 有 两 种 方式 : 





CD 在 用 户 的 某 条 微 博 上 ， 在 将 鼠标 移 到 用 户头 像 时 所 弹出 的 窗口 中 单 击 
“关注 " 。 
(2) 在 微 博 用 户 的 首页 单 击 “ 关 注 ”。 


两 种 关注 方式 的 请 求 链接 是 一 样 的 ， 区 别 在 于 请 求 参数 的 差异 。 本 项 目 主要 实现 
第 二 种 关注 方式 ， 在 浏览 器 上 捕捉 其 请 求 信息 ， 如 图 16-23 和 图 16-24 所 示 。 











Filter C) Hide data URLs fff | XHR JS CSS Img Media Font Doc WS M 
Name X [Headers | Preview Response Cookies Timing 





[ ] egif?UATrackl[2398798018866.328.15091.. | » General 

> Response Headers (13) 

[.] ectvxinwen?refer fl » Request Headers (12) 

[ a.gif?v=2.2.4.20141125&Cl=sz:1280x720]... | * Query String Parameters (2) 


[-] xdhtgifzV6addattenlayer-addatten&, md.. | Y Form Data view source view URL encoded 
uid: 2656274875 









refer sort: 

refer flag: 1005050001 
location: page. 160206 home 
oid: 2656274875 

wforce: 1 

nogroup: false 

fnick: 央视 新 闻 

refer Iflag: 1028035010. 
refer from: profile headerve 


5 requests | 7.4 KB transferred to 


图 16-23 关注 用 户 时 的 请 求 信息 

















253 





玩 转 Python es 


HH 








Name X Headers | Preview | Response Cookies Timing 
[C userwhite?ajwvr-6 
[DD proxy?api-http://contentreco... 








refer flag: "e000021092 ' 
refer lflag: "1005050001 " 
» relation: (following: 1, follow me: 0] 


msg: 











3/167 requests | 1.8 KB / 510 KB... 


图 16-24 关注 用 户 时 的 响应 内 容 


从 图 16-23 的 请 求 参 数 分 析 可 得 ， 参 数 uid、location、oid 和 fnick 是 被 关注 用 户 
的 信息 ， 暂 时 无 法 得 知 被 关注 用 户 信息 的 来 源 。 其 余 的 参数 是 固定 不 变 的 。 

从 图 16-24 的 响应 内 容 分 析 可 得 , 用 户 被 关注 成 功 之 后 , 网 站 主要 返回 JSON 数据 。 
观察 数据 内 容 ， 可 从 “code” 的 值 来 判断 是 否 关注 成 功 。 

进一步 核实 被 关注 用 户 信息 的 来 源 ， 以 “央视 新 闻 ” 的 微 博 为 例 ， 分 析 查 找 浏 览 
器 在 “央视 新 闻 ” 的 微 博 首页 所 捕捉 的 请 求 信息 ， 最 终 在 Doc 标签 找到 该 微 博 信息 ， 
如 图 16-25 所 示 。 




















Filter E Hide data URLs Al | XHR JS CSS Img Media Font (EB WS Manifest od 
Name X Headers | Preview | Response Cookies Timing 








74875' ; 
002062656274875"; 
sn; 


54| $conF16[ 'oid" ]=" 
55| $coNFIG[ 'page. 
56| gcowFTG[ 'onic 
57| $cour1e[ 'skin 
58| $CONFIG[ 'background 
59| $conrI[ ' scheme" ]- di. 
一 | $conF1G[ colors type' 
61| $conr1o[ ' uid" 
62| $conFIG[ 'nick 
63| $CONFIG['sex* 
64| $CONFIG[ "wate 
65| $conFIG[ 'doma: 
66| $ConFIG[ lang 
67| $cONFIG['avatar | 
$CONFIG[ 'timeDiff 


















$conr1G[ ' location* 
$CONF IG[ ' pageid" 





1/ MT requests | 287 KB / 499 K... 


图 16-25 被 关注 用 户 的 首页 信息 
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从 图 16-23 和 图 16-25 的 数据 对 比 得 出 ， 图 16-23 的 参数 vid、location、oid 和 
fnick 分 别 对 应 图 16-25 的 oid, location, oid 和 onick。 


综合 上 述 分 析 ， 实 现代 码 如 下 : 


import time 
# 关注 微 博 ，session 是 用 户 登 录 后 的 会 话 ，follow_url 是 关注 用 户 的 微 博 主页 
def follow weibo(session, follow url): 
+ 构建 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
headers = ( 
'User-Agent': agent, 
'Referer': follow url 


follow info = ('oid': '', 'onick': '', 'location': ''] 

r = session.get(follow url) 

response - r.text 

follow info['oid'] = response.split ("SCONFIG['oid']-'")[1]. 
split("';")[0] 

follow info['onick'] = response.split ("S$CONFIG['onick']-'") 
[1].split("';") [0] 

follow info['location'] - response. 
split("$CONFIG['location']-'")[1].split("';") [0] 

+ 关注 URL， 参 数 rnd 为 时 间 戳 





url = 'https://www.weibo.com/aj/f/followed?ajwvr-6&  rnd-' + 
str(int(time.time() * 1000)) 
data = ( 


'uid': follow info['oid'], 


'objectid': '', 


E on, 
"extra e ctt. 
'refer sort': '', 


'refer flag': '1005050001 ', 
'location': follow info['location'], 
'oid': follow info['oid'], 

'wtorce':s 11., 


'nogroup': 'false', 
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'fnick': follow info['onick'], 


"reter lfhag": "'*, 
'refer from': 'profile headerv6', 
't': 0， 


r = session.post(url, data-data, headers-headers) 
+ 判断 是 否 关 注 成 功 
if (r.json()['code']) == '100000': 

return (follow info['onick'] + "关注 成 功 ') 
else: 

return (follow info['onick'] + ' XiEXAWt') 


上 述 是 本 节 实 现 的 功能 代码 ， 存 放 在 文件 weibo followpy 中 ， 代 码 说 明 如 下 : 


C1). 函数 follow weibo 的 参数 分 别 是 带 有 用 户 信息 的 会 话 对 象 和 被 关注 的 微 博 
首页 链接 。 

(2) 重新 构建 请 求 头 ， 主 要 在 发 送 关 注 用 户 的 请 求 时 所 使 用 。 

(3) 访问 被 关注 用 户 的 首页 ， 获 取 被 关注 用 户 的 信息 。 

(4) 对 获取 的 数据 构建 请 求 参数 ， 实 现 发 送 用 户 关注 请 求 。 


代码 与 16.5 节 的 运行 方式 一 样 , 打开 修改 微 博 登 录 文件 weibo_login.py, 代码 如 下 : 


if name -- " main ": 


# 构造 请 求 头 

agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 

headers - ( 





'User-Agent': agent 
) 
# 代理 IP 
proxies = {} 
+ 新 建 会 话 
session = requests.session() 
# 第 三 方 平台 账号 、 密 码 


yundama username = 'xxxx' 


yundama password = 'xxxx' 
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user info = login('13435423143','xxxx"') 


# 导入 关注 用 户 模块 
from weibo follow 


# 关注 用 户 的 首页 链接 














import follow weibo 


follow url = 'https://weibo.com/renminwang' 


status - follow weibo(session, follow url) 


print (status) 


16.7 点 赞 和 转发 评论 





本 节 主 要 实现 两 个 功能 : 点 赞 和 转发 评论 。 两 者 实现 方式 和 16.6 节 的 实现 方式 
大 致 相同 ， 主 要 在 对 方 的 微 博 首页 实现 。 


在 浏览 器 上 访问 某 微 博 的 月 





HH. ， 以 “有 妖 气 原创 漫画 梦 工 厂 ” 为 例 (https:/ 





weibo.com/ul7t) ， 在 该 微 博 用 户 的 第 一 条 微 博 中 单 击 “ 点 赞 ”按钮 ， 开 发 者 工具 所 
捕捉 的 请 求 信息 如 图 16-26 所 示 。 

















Filter Cj Hide data URLs Al | ÉO JS CSS Img Media Font Doc WS Manifest Other 
Name X | Headers | Preview Response Cookies Timing 





[L proxytapi-http;//conte... | v General 


mid: 41 


cuslike: 
te 











| userwhite?ajwvr-6 Request URL: https://weibo.com/aj/v6/like/add?ajwvr-6& rnd-151e068004469 


d je Request Method: POST 
p " SENSUS Status Code: @ 200 ox 


Remote Address: 123.125.104.197:443 


Referrer Policy: no-referrer-when-downgrade 
> Response Headers (13) 
P Request Headers (12) 
> Query String Parameters (2) 
wFormData ^ view source view URL encoded 


location: page 100606 home 
version: mini 
qid: heart 


loc: profile 


71399478691072 


1 








图 16-26 点 赞 微 博 请 求 信息 


从 图 16-26 的 请 求 分 析 可 知 ， 请 求 链接 的 _rnd 是 当前 时 间 的 时 间 惟 乘 以 1000 再 


取 整 所 得 ， 请 求 参数 分 析 如 下 : 


(1) 参数 location 代表 被 点 赞 的 微 博 用 户 信息 ， 数 据 来 源 可 在 Doc 标签 返回 的 


HTML 内 容 中 找到 。 
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(2) 参数 mid 数据 来 源 无 法 得 知 ， 点 赞 不 同 的 微 博 ， 其 参数 值 随 之 变化 。 
G) 其 余 参数 值 固定 不 变 。 


根据 参数 mid 的 变化 规律 得 知 ， 不 同 微 博 的 数据 会 随 之 变化 ， 那 么 参数 mid 可 能 
于 标识 微 博 的 唯一 性 。 为 了 验证 猜想 是 否 正确 ， 我 们 分 析 浏览 器 所 捕捉 到 的 请 求 信 
息 ， 最 终 在 Doc 下 找到 mid 的 参数 值 ， 如 图 16-27 所 示 。 


Filter E Hide data URLs All | XHR JS CSS Img Media Font WS Manifest Ot] 


X Headers | Preview | Response Cookies Timing 


108| «script src-"//s.t.sinajs.cn/tS/1ang/jspage/mo/zh-hk. js?version-d 
169| «script» 

110| var FM-function(a,b,c)(function bi(b,c) (a.clear&&(bN-a.clear) 
111| </script> 

112| «script»fM. view( ("doni 
113| «script»FM.view(("ns 
114| <script>Fm.view({"ns 
115| «script»FM.view(("ns 
116| «script»FM.view(("ns 
117| cscriptoFh.view(("ns 
118| «script»FM.view(("ns 
119| «script»FM.view(("ns 
120| «script»FH. view((^ 
121| escript?FH.view( 
122| <script>FM. view({ 
123| <script>Fm. view({"ns 
124| <script>FM. view({"ns 
125| <script>FM. view({"ns 
126| <script>Fm. view({"ns 
127| <script>FM. view({"ns 
128| <script>FM.view({"ns 
129| <script>Fm. view({"ns 
138| «scrint»FM.view( f"; 


图 16-27 查找 请 求 参数 
































/ js/pl/lib. js?version 
id":"pl common webim". 
pl, common top*, "css 
anguage. index" , "domi 
"pl common base", "cs 
lonid":"plc frame"," 
domid":"Pl Official 
Pl Core CustTab 2" 
],^ html 




























pl. header. head. ind 
pl.nav.index", "dom 





Pl Core P6Video 21", 
Pl core TBCustomTricolumn : 
Pl Third Tnline 47. "css":T"htt 

















在 Doc 标签 返回 的 HTML 内 容 中 快速 查找 CCteb-F) 参数 值 (4171399478691072 ) , 
在 HTML 里 的 JavaScript 代码 中 找到 参数 mid， 而 且 参 数 mid 是 重复 出 现 的 。 因 此 可 
以 确定 ， 参 数 mid 可 在 网 站 返回 的 HTML 中 找到 。 综 合 上 述 分 析 ， 实 现代 码 如 下 : 











import re 
import time 
# session 是 会 话 对 象 ，1ike_url 是 用 户 首页 
def like weibo(session, like url): 
+ 获取 点 赞 用 户 的 前 16 条 微 博 
r = session.get(like url) 
# 获取 location 
location = r.text.split("S$CONFIG['location']-'")[1]. 
split("';")[0] 
# 获取 mid 


mid list = re.findall(r'mid-(.NVd*)&name', r.text, re.S) 
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+ 构建 请 求 头 
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0"' 
headers - ( 
'User-Agent': agent, 
'Referer': like url 


) 
+ 点 赞 功能 ， 默 认 点 赞 第 一 条 微 博 
url = 'https://weibo.com/aj/v6/like/add?ajwvr-6&  rnd-' + 
(str(int(time.time() * 1000))) 
data = ( 
'location': location, 
'version': 'mini', 
'qid': 'heart', 
'mid': mid list[0], 
'loc': 'profile', 
'cuslike': '1', 
Y i a 
} 
r = session.post (url, data=data, headers=headers) 
# 根据 返回 内 容 判 断 是 否 成 功 
if (r.json()['code']) -- '100000': 
return (' 点 赞成 功 ') 
else: 


return (' 点 赞 失败 ') 
点 赞 功 能 定义 为 函数 like_weibo0: 函数 参数 session 是 会 话 对 象 ，like_url 是 被 点 
赞 用 户 的 首页 链接 。 函 数 实现 的 功能 如 下 : 


a) 访问 被 点 赞 用 户 的 首页 链接 ， 获 取 用 户 的 location 信息 和 mid list. mid list 
是 当前 用 户 的 前 16 条 微 博 mid 组 成 的 列表 。 

(2) 构建 请 求 头 ， 作 为 发 送 点 赞 请 求 的 请 求 头 。 如 果 不 加 请 求 头 ， 该 请 求 就 会 
被 服务 器 视 为 非法 请 求 ， 因 为 服务 器 会 对 请 求 头 的 Referer 进行 检查 ， 这 是 一 种 反 息 
虫 机 制 。 

G) 发 送 点 赞 请 求 ， 将 获取 的 location 和 mid list 作为 请 求 参数 ，mid_list 默认 
取 第 一 位 元 素 ， 即 默认 点 赞 第 一 条 微 博 。 
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(4) 针对 请 求 后 的 响应 内 容 判断 是 否 点 赞成 功 。 


完成 微 博 点 赞 功能 后 ， 接 着 完成 转发 评论 功能 ， 该 功能 的 实现 方式 和 点 赞 功能 类 














似 。 以 上 述 微 博 用户 首 页 为 例 , 单 击 转发 该 用 户 的 第 一 条 微 博 , 勾 选 “同时 评论 ”选项 ， 











在 开发 者 工具 看 到 该 请 求 信息 ， 如 图 16-28 所 示 。 





X [Headers | Preview Response Cookies Timing 
Y General 
Request URL: https://weibo.con/aj/v6/mblog/forward?ajuvr-GRdomain-100606R rnd-1515255669150 
Request Method: posT 
Status Code: 8 200 OK 
Remote Address: 123.125.104.197:443 
Referrer Policy: no-referrer-when-downgrade 
> Response Headers (13) 
> Request Headers (12) 
Y Query String Parameters ^ view source view URL encoded 
ajwvr: 6 
domain: 100606 
_md: 1515255669350 





Form Data ^ viewsoure view URL encoded 
pic src: 
pic id: 
appkey: 
mid: 4180208455805289 
style type: 1 
mark: 
reason: 转 我 微 博 
location: page 100606 home 
pdetail: 1006062011658674 
module: 
page module id: 
refer sort: 
is comment, base: 1 
rank: 9 
rankid: 
to 











16-28 转发 评论 的 请 求 信息 


从 请 求 信息 分 析 可 得 : 请求 链 接 的 _rmd 是 当前 时 间 的 时 间 戳 乘 以 1000 再 取 整 所 


fi, domain 是 被 转发 的 用 户 信 息 ， 请 求 参数 分 析 如 下 : 
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(1) 参数 location 和 mid 与 点 赞 功能 的 请 求 参数 一 致 

(2). 参数 reason 是 转发 内 容 。 

(3) 参数 pdetail 无 法 确定 。 

(4) 参数 pic id 与 16.5 节 的 请 求 参 数 pic_id 一 致 。 

(5) 参数 is_ comment base 代表 转发 时 的 “同时 评论 ”选项 。 
(6) 其 余 参 数值 固定 不 变 。 
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为 了 确定 参数 pdetail 的 数据 来 源 ， 查 找 分 析 浏 览 器 所 捕捉 到 的 请 求 信息 ， 最 后 
在 Doc 下 找到 该 参数 的 数据 来 源 , 该 参数 代表 被 转发 微 博 的 用 户 信息 , 如 图 16-29 所 示 。 

















Filter E Hide data URLs All | XHR JS CSS Img Media Font [993 ws 
Name X Headers | Preview | Response Cookies Timing 





SIJ <script type-"text/ javascript" 
52| var $CONFIG = {}; 

53| $conF1G['islogin']-'1'; 
54| $coNr1c[ "oid']-'2011658674 
55| sconFIG[ ' pag 
56| $CONFIG[ "onick 
57| $CoNFIG[ "skin']- diy" 
58| $CONFIG[ 'background' ]- '77e779b21y1fikmgx2q12j21hcoqehdt" 
59| $coNrIc| 'schene' ]-'diyo0'; 
e| $cowrIe['colors type']-" 

61| cour 1G [ uid" Je "1777129223; 
62| $CONFIG[ nick" 
63| $CONF IG[ sex" ] 
64| $CONFIG[ ‘watermar 
65| $coNFIG[ 'domais 
66| gconFIG['lang']- zh-h 
67| $cowr1G['avatar. large" ]-' //tva2. sinaimg.cn/crop.0.0.640.640.180j 
68| $CONFIG[ "timeDiFf" ]=(new Date() - 1515255897000) 

69| $CONFIG[ ' servertime']-'1515255897'; 

76| $CoNFIG[location']-'page 100606 home" 

71| gconFIG['pageid'] 
72| $conr1c[ title value']-" fX ROI si T.I PURUS AR; 
73| SCONF GL "webin']-"1* 

74| 4 | 





















"531612012"; 



































1/205 requests ..| Aa .* [1006062011658674 


图 16-29 请 求 参 数 信息 








综合 上 述 分 析 ， 实 现代 码 如 下 : 
# 转发 评论 微 博 


def forward weibo(session, forward url, reason): 

# Xa SU" aar 16 条 微 博 

r = session.get(forward url) 

# 获取 location 

location = r.text.split("S$CONFIG['location']-'")[1]. 
split("';")[0] 

page id = r.text.split("$CONFIG['page id']-'")[1].split("';") [0] 

domain = r.text.split("$CONFIG['domain']-'") [1].split("';") [0] 

# 获取 mid 

mid list = re.findall (r'mid=(.\d+)&name', r.text, re.S) 

# 构建 请 求 头 

agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 

headers - ( 

'User-Agent': agent, 


'Referer': forward url 
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) 

+ 转发 评论 

url = 'https://weibo.com/aj/v6/mblog/forward?ajwvr- 
6&domain-'* domain *'& rnd-' + (str(int(time.time() * 1000))) 


data = ( 
'pac sre's t1 
"pae Warp: "*. 
'appkey': '', 


'mid': mid list[0], 
"style type”: '1', 
"nark': **, 
'reason': reason, 
'location': location, 
'pdetail': page id, 
'module': '', 
'page module id': '', 
"refer sort”: "', 
'is comment base': '1', 
"rank": "o", 
'rankid': "=, 
"ptr "gt 
) 
r = session.post(url, data-data, headers-headers) 
# 根据 返回 内 容 判 断 是 否 成 功 
if (r.json() ['code']) == '100000': 
return (' 转发 成 功 ') 
else: 


return (' 转发 失败 ') 


转发 评论 功能 定义 函数 forward weiboO: 函数 参数 session 是 会 话 对 象 ， forward_ 
url 是 被 转发 评论 用 户 的 首页 链接 ; reason 是 转发 的 评论 内 容 。 函 数 的 功能 逻辑 与 点 赞 
功能 大 致 相同 ， 此 处 不 做 详细 讲解 。 

将 上 述 函数 like_ weibo) 和 forward_weibo0 保存 在 文件 weibo_forwardpy 中 ， 代 码 
与 16.6 节 的 运行 方式 一 样 ， 打 开 修 改 微 博 登录 文件 weibo_loginpy， 代 码 如 下 : 


if name == " main ^": 


# 构造 请 求 头 
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agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0" 
headers { 


'User-Agent': agent 


} 

# 代理 TP 
proxies 
+ 新 建 会 话 

session = requests.session() 
# 第 三 方 平台 账号 、 密 码 


yundama username - 'xxxx' 


{} 


yundama password = 'xxxx' 

user info = 10ogin('13435423143','xxxx') 

# 导入 点 赞 和 转发 评论 模块 

from weibo forward import forward weibo, like weibo 
url = 'https://weibo.com/ul7t' 

+ 点 赞 

result = like weibo(session, url) 

print (result) 

# 转发 评论 

result = forward weibo(session, url, 'Python WE ') 
print (result) 


16.8 本 章 小 结 


通过 本 章 的 学 习 ， 读 者 要 着 重 掌 握 以 下 知识 点 : 

1. 项 目 实现 的 功能 

e weibo loginpy: 微 博 用 户 登录 ， 同 时 也 是 程序 运行 文件 。 
e weibo verify code.py: 第 三 方 平台 API， 实 现 验证 码 识别 。 
* weibo collect.py: 根据 关键 字 搜 索 并 采集 热门 微 博 。 

e weibo_send.py: 发 布 微 博 。 

e  weibo followpy: 关注 用 户 。 

e  weibo forward.py: dic HE Mo ER TEE. 
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*  data.sv: 存储 采集 数据 。 

e X4FX video fe image: 分 别 存储 采集 的 视频 和 图 片 。 

2. 微 博 登 录 实 现 难 点 

(1) 账号 密码 的 加 密 处 理 。 加 密 方 法 一 般 在 JS 代码 中 能 直接 找到 ， 开 发 人 员 需 
要 对 JS 代码 解读 分 析 。 

(2) 带 验证 码 登录 和 普通 登录 的 区 别 ， 程 序 运行 要 根据 当前 的 登录 模式 而 做 出 
响应 的 登录 处 理 。 

G) 用 户 登 录 成 功 后 获取 用 户 信息 。 

(4) 第 三 方 平 台 识 别 验证 码 。 

3. 关键 字 搜索 热门 微 博 实现 难点 

(D 关键 字 URL 编码 处 理 ， 关 键 字 进行 了 两 次 URL 编码 处 理 。 

(2) 响应 内 容 乱码 问题 ， 需 要 对 响应 内 容重 新 编码 处 理 。 

(3) 文字 过 长 的 特殊 处 理 。 

(4) 多 线程 下 载 图 片 和 视频 。 


4. 发 布 微 博 实现 难点 


(1) 图 片上 传 分 析 以 及 功能 实现 。 
(2) 分 析 三 种 微 博 发 布 方式 的 异同 。 


5. 关注 用 户 、 点 赞 和 转发 评论 实现 难点 


(1) 分 析 请 求 参数 含义 以 及 来 源 。 
(2) 构建 请 求 头 。 
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17.1 RhE 


怜 虫 框架 是 为 解决 疏 虫 问题 而 设计 的 具有 一 定 约束 性 的 支撑 结构 。 在 此 结构 上 ， 
可 以 根据 具体 问题 扩展 、 安 插 更 多 的 组 成 部 分 ， 从 而 更 迅速 和 方便 地 构建 完整 的 解决 
问题 的 方案 。 


Python 常见 的 候 虫 框架 如 下 。 








e Scrapy 框架 : Scrapy 框架 是 一 套 比 较 成 熟 的 Python 爬虫 框架 ， 是 使 用 Python 
开发 的 快速 、 高 层次 的 信息 爬 取 框架 ， 可 以 高 效 地 恨 取 Web 页 面 并 提取 出 结 
构 化 数据 。 

*  PySpider 框架 : PySpider 是 以 Python 脚本 驱动 的 抓 取 环 模型 爬虫 框架 。 
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* Crawley 框架 : Crawley 也 是 Python FRR RIER, HERAN TARAN 
从 互联 网 中 提取 数据 的 方式 。 

* Portia 框架 : Portia 是 一 款 允 许 没 有 任何 编程 基础 的 用 户 可 视 化 地 爬 取 网 页 的 
爬虫 框架 。 

e Newspaper 框架 : Newspaper 是 一 款 用 来 提取 新 闻 、 文 章 以 及 内 容 分 析 的 
Python 爬虫 框架 。 


疏 虫 框架 能 为 项 目 开 发 起 到 规范 作用 ， 也 因为 如 此 ， 使 其 失去 一 定 的 灵活 性 。 很 
多 人 会 将 Requests 和 Scrapy 两 者 进行 对 比 ， 前 者 是 第 三 方 库 ， 后 者 是 爬虫 开发 框架 ， 
尽管 两 者 不 在 同一 层次 ， 但 还 是 有 一 定 的 对 比 性 。 


o 规范 性 : Scrapy 有 自身 的 一 套 规则 ， 自 带 功能 模块 能 完成 疏 虫 开发 ， 各 个 功 
能 代码 划分 明确 。Requests 只 规范 数据 爬 取 ， 不 支持 数据 清洗 和 数据 存储 ， 需 
结合 其 他 库 一 起 使 用 才能 完成 疏 虫 开发 。 

o 灵活 性 : Scrapy 有 较 强 的 规范 性 ， 导 致 其 灵活 性 比 不 上 Requests， 对 于 一 些 设 
计 不 合理 的 网 站 或 者 较为 特殊 的 网 站 ，Requests 能 针对 其 特殊 性 制定 完善 的 解 
决 方案 。 这 方面 对 比 Scrapy 具有 一 定 优势 。 

e ZAE: ScrapyiéJ T A RUR SEA B, 主要 归功 于 其 具有 明确 的 规范 性 ， 
便于 开发 者 对 代码 的 维护 和 管理 。 Requests 对 开发 人 员 的 编程 习惯 有 较 大 影响 ， 
如 果 架 构 设 计 不 合理 或 者 替换 开发 人 员 ， 会 使 代码 维护 管理 难以 把 控 。 


总 地 来 说 ， 无 论 是 框架 式 开发 还 是 非 框架 开发 ， 都 应 针对 项 目的 整体 需求 制定 合 
理 的 开发 设计 方案 。 只 要 是 合理 的 便 是 最 好 的 ， 无 论 是 框架 与 非 框架 ， 只 是 一 个 开发 
工具 而 已 。 

在 Python 中 ， 开 源 疏 虫 框架 很 多 ， 但 并 不 需要 掌握 每 一 种 怜 虫 框架 ， 只 需要 深 
入 掌握 一 种 即 可 。 大 部 分 朴 虫 框架 的 实现 方式 都 大 同 小 异 ， 基 本 上 都 是 围绕 爬虫 开发 
流程 〈 网 页 抓 取 、 数 据 清 洗 、 数 据 入 库 和 异步 并 发 处 理 等 方面 ) 设计 而 成 的 。 

Scrapy 是 一 个 为 了 怜 取 网 站 数据 、 提 取 结 构 性 数据 而 编写 的 应 用 框架 ， 主 要 应 
用 在 数据 挖掘 、 信 息 处 理 或 存储 历史 数据 等 一 系列 程序 中 。Scrapy 最 初 是 为 了 页 面 
抓 取 所 设计 的 ， 也 可 以 应 用 在 获取 API 所 返回 的 数据 (例如 Amazon Associates Web 
Services). 或 者 通用 的 网 络 爬 虫 中 。 
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Scrapy 基于 Twisted 架构 ， 使 得 可 以 级 联 多 个 操作 ， 包 括 清理 、 组 织 、 存 储 数 据 





到 数据 库 等 。 假 设 抓 取 一 个 网 站 ， 网 站 的 每 一 页 有 上 百 数据 ，Scrapy 可 以 同时 对 这 个 


网 站 


发 起 16 个 或 者 更 多 请 求 ， 假 如 每 个 请 求 需要 一 秒 钟 来 完成 ， 相 当 于 每 秒 钟 爬 取 








16 个 页 面 ， 每 秒 钟 生成 1600 条 数据 ， 把 这 些 数 据 同 时 存储 入 库 ， 每 条 数据 的 存储 需 
要 3 秒 钟 《假设 时 间 ) ， 为 了 处 理 这 16 个 请 求 ， 就 需要 运行 1600X3 = 4800 个 并 发 
的 写 入 请 求 ， 对 于 一 个 传统 的 多 线程 程序 来 说 ， 就 需要 转换 成 4800 个 线程 ， 这 会 对 
系统 造成 极 大 的 压力 。 对 于 Scrapy 来 说 ， 只 要 硬件 过 关 ，4800 个 并 发 请 求 是 没有 问 


题 的 
效 地 








。 除 此 之 外 ， 还 提供 selectors (Æ Ixml 的 基础 上 提供 了 更 高 级 的 接口 ) ， 可 以 高 
处 理 不 完整 的 HTML 代码 。 


17.2 Scrapy 的 运行 机 制 


件 接 





Scrapy 使 用 Twisted 异步 网 络 库 来 处 理 网 络 通信 ， 架 构 清晰 ， 并 且 包 含 各 种 中 间 

















， 可 以 灵活 地 完成 各 种 需求 。Scrapy 的 整体 架构 如 图 17-1 所 示 。 
Spiders 
17-1 Scrapy 的 运行 机 制 
Scrapy 的 运行 机 制 大 概 如 下 : 


(1) 引擎 从 调度 器 中 取出 一 个 URL (URL) ， 用 于 接 下 来 的 抓 取 。 
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(2) 引擎 把 URL 封装 成 请 求 (Request) 传 给 下 载 器 ， 下 载 器 把 资源 下 载 后 封 
装 成 应 答 包 (Response) 。 


(3) 扑 虫 解析 Response. 
(4) 若 解 析出 实体 〈Item) ， 则 交 给 实体 管道 进行 进一步 的 处 理 。 
C5) 若 解析 出 的 是 URL， 则 把 URL 交 给 Scheduler 等 待 抓 取 。 


Scrapy 运行 离 不 开 各 个 组 件 相互 合作 和 调度 。 结 合 图 17-1， 各 个 组 件 的 功能 说 明 


如 下 。 


引擎 〈Scrapy) : 处 理 整 个 系统 的 数据 流 ， 和 触发 事务 框架 核心 ) 。 

调度 器 (Scheduler) : 接受 引擎 发 过 来 的 请 求 ， 压 入 队列 中 ， 并 在 引擎 再 次 
请 求 的 时 候 返回 。 

FRZ (Downloader): 用 于 下 载 网 页 内 容 ， 并 将 网 页 内 容 返回 给 物 蛛 CScrapy 
下 载 器 的 运行 原理 是 基于 Twisted 框架 实现 的 ) 。 

KR (Spiders) : 从 特定 的 网 页 中 提取 自己 需要 的 信息 ， 即 实体 Atem) 。 也 
可 以 从 中 提取 出 URL， 让 Scrapy 继续 抓 取 下 一 个 页 面 。 

项 目 管道 〈Item Pipeline) : 负责 处 理 爬 虫 从 网 页 中 抽取 的 实体 ， 主 要 的 功能 
是 持久 化 实体 、 验 证 实体 的 有 效 性 、 清 除 不 需要 的 信息 。 当 页 面 被 疏 虫 解析 后 ， 
将 被 发 送 到 项 目 管道 ， 并 经 过 几 个 特定 的 次 序 处 理 数据 。 

下 载 器 中 间 件 (Downloader Middlewares) : 位 于 Scrapy 引擎 和 下 载 器 之 间 的 
框架 ， 处 理 引擎 与 下 载 器 之 间 的 请 求 及 响应 。 

爬虫 中 间 件 (Spider Middlewares) : 介 于 Scrapy 引 营 和 有 爬虫 之 间 的 框架 ， 主 
要 工作 是 处 理 物 蛛 的 响应 输入 和 请 求 输出 。 

调度 中 间 件 (Scheduler Middewares) : 介 于 Scrapy 引擎 和 调度 之 间 的 中 间 件 ， 
从 Scrapy 引擎 发 送 到 调度 的 请 求 和 响应 。 


ra 


安装 Scrapy 





在 安装 Scrapy 之 前 ， 需 要 先 安装 Twisted. Twisted 可 以 使 用 pip 安装 ， 但 使 
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pip 安装 很 容易 出 现 错误 ， 建 议 下 载 Twisted 的 whl 文件 安装 (www.lfd.uci.edu/ 
—gohlke/pythonlibs/) ， 如 图 17-2 rm. 





Twisted, an event-driven networking engine. 
Twisted-17.9.0-cp27-cp27m-win32.whl 
Twisted-17.9.0-cp27-cp27m-win amd64.whl 
Twisted-17.9.0-cp34-cp34m-win32.whl 
Twisted-17.9.0-cp34-cp34m-win amd64.whl 
Twisted-17.9.0-cp35-cp35m-win32.whl 
Twisted-17.9.0-cp35-cp35m-win amd64.whl 
Twisted-17.9.0-cp36-cp36m-win32.whl 
Twisted-17.9.0-cp36-cp36m-win amd64.whl 
































网 








17-2 Twisted 版 本 信息 





下 载 安装 包 时 ， 应 根据 系统 选择 对 应 的 版 本 信息 ， 如 Twisted-17.9.0-cp35-cp35m- 
win amd64.whl, cp35 是 Python 3.5 版 本 ，amd64 代表 64 位 系统 。 下 载 文件 后 保存 在 
了 E 盘 ， 然 后 打开 CMD 窗口 ， 将 路 径 切换 到 了 盘 ， 输 入 安装 指令 : 


E:\>pip install Twisted-17.9.0-cp35-cp35m-win amd64.whl 





完成 Twisted 安装 后 ， 可 使 用 pip 安装 Scrapy， 安 装 指令 如 下 : 
pip install Scrapy 


值得 注意 的 是 ， 最 好 先 安装 Twisted， 再 安装 Scrapy。 如 果 直 接 安装 Scrapy， 在 
安装 过 程 中 就 会 出 现 报错 信息 : 








building 'twisted.test.raiser' extension 

error: Microsoft Visual C++ 14.0 is required. Get it with 
"Microsoft Visual C++ Build Tools": http://landinghub.visualstudio. 
com/visual-cpp-build-tools 


如 果 出 现 上 述 报错 信息 ， 用 户 先 安装 Twisted， 再 重新 安装 Scrapy 即 可 解决 。 完 


成 Scrapy 的 安装 后 ， 打 开 CMD 窗口 并 进入 Python 交互 式 命令 行 ， 输 入 以 下 代码 检 
测 是 否 安装 成 功 : 





>>> import scrapy 
>>> scrapy. version . 
51.4.0" 
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174 ERRERA 


本 节 通 过 一 个 简单 的 项 目 讲解 如 何 使 用 Scrapy SERE HR JT, AA RANÉ H i 
题 列表 为 例 , 在 浏览 器 中 打开 网 页 (https://zhidao.baidu.com/list?cid=110) 和 开发 者 工具 ， 
查找 并 分 析 网 页 数据 的 生成 方式 。 最 终 在 Doc 标签 下 找到 数据 所 在 位 置 ， 分 析 得 知 每 
条 数据 在 标签 <a> 中 ， 而 标签 <a> REER <div> 中 ，class 属性 的 值 为 question- 
title， 如 图 17-3 所 示 。 














L4 
a PBEM» OF ks | 10 种 钟 前 




















图 17-3 分 析 百 度 知道 问题 列表 


根据 简单 分 析 ， 使 用 Scrapy 完成 上 述 开 发 需求 。 首 先 创建 Scrapy 项 目 ， 在 CDM 
(终端 ) 下 切换 到 E 盘 路 径 ， 本 项 目 以 “baidu” 为 项 目 名 称 ， 创 建 项 目 命令 如 下 : 


scrapy startproject baidu 


创建 项 目 后 ， 可 在 E 得 找 到 “baidu” 文 件 夹 ， 在 Pychram 下 打开 该 文件 夹 ， 目 
录 结 构 如 图 17-4 所 示 。 








v Ba baidu 
v [3 spiders 
[3 init .py 
Ñ init .py 
Í$ items.py 
Í middlewares.py 
刘 pipelines.py 
Í$ settings.py 
B scrapy.cfg 
> 响 External Libraries 








图 17-4 Scrapy 目录 结构 
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项 目 文件 说 明 如 下 。 


* spiders (文件 夹 ) : 编写 爬虫 规则 ， 实 现 数据 爬 取 和 数据 清洗 处 理 。 

e items.py: 数据 定义 和 实例 化 ， 用 于 寄存 清洗 后 的 数据 。 

*  middlewares.py: 是 介 于 Scrapy 的 request/response 处 理 的 钩子 框架 ， 用 于 全 局 
修改 Scrapy request 和 response 的 一 个 轻 量 、 底 层 的 系统 。 

*  pipelinespy: 执行 保存 数据 的 操作 ， 数 据 对 象 来 源 于 items.py。 

e setting.py: 整个 框架 配置 文件 。 

e scrapy.ctg: 项 目 部 署 文件 。 


使 用 框架 式 开发 一 般 都 有 功能 实现 次 序 ， 次 序 不 是 固定 不 变 的 ， 很 大 程度 上 根据 
开发 人 员 的 编程 习惯 所 决定 。Scrapy 常用 功能 实现 次 序 如 下 。 


e  setingpy: 主要 配置 不 虫 信息 ， 如 请 求 头 、 中 间 件 和 延 时 设置 等 。 

e items.py: 定义 存储 数据 对 象 ， 主 要 衔接 spiders (文件 夹 ) 和 pipelines.py。 

e pipelines.py: 数据 存储 ， 数 据 格式 以 字典 形式 表现 ， 字 典 的 键 是 items.py 定义 
的 变量 。 

* spiders (文件 夹 ) : 编写 爬虫 规则 。 


下 面 按照 上 述 实现 次 序 讲解 功能 代码 的 编写 。 


CX) 打开 setting.py， 发 现 文件 大 部 分 内 容 已 被 注释 ， 注 释 内 容 有 配置 代码 、 配 置 说 明 
和 相应 的 官方 文档 链接 。 本 项 目 只 需 设置 Item Pipeline 和 请 求 头 即 可 ， 找 到 以 下 
代码 ， 将 其 注释 去 掉 ， 其 余 代 码 不 做 任何 操作 : 


# 指定 数据 入 库 的 函数 
ITEM PIPELINES = ( 
'baidu.pipelines.BaiduPipeline': 300, 

) 
# 设置 请 求 头 
DEFAULT REQUEST HEADERS = ( 

'Accept': 'text/html,application/xhtml*xml,application/ 

xml;q-0.9,*/*;q-0.8', 
'Accept-Language': 'en', 


} 
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配置 信息 说 明 如 下 : 


ITEM PIPELINES 用 于 激活 pipelines.py 文件 里 的 BaiduPipeline 类 ， 作 用 是 告 
诉 Scrapy 在 执行 数据 存储 的 时 候 使 用 哪个 类 对 象 实现 存储 。BaiduPipeline 是 
Scrapy 项 目 自动 生成 的 类 ， 开 发 者 也 可 根据 实际 需求 添加 或 删除 配置 内 容 。 
DEFAULT REQUEST HEADERS 用 于 激活 请 求 头 ， 当 Scrapy 向 网 站 发 送 请 
求 的 时 候 ， 如 果 该 请 求 没有 指明 请 求 头 内 容 ， 就 默认 使 用 该 配置 作为 这 个 请 
打开 items.py, Scrapy 已 生成 相关 的 代码 及 文档 说 明 ， 开 发 者 只 需 在 此 基础 上 定 
义 类 属性 即 可 。 本 项 目 定义 类 属性 TitleName， 代 表 问 题 列表 中 每 条 问题 的 内 容 。 
scrapy.Field() 是 Scrapy 的 特有 对 象 ， 其 主要 作用 是 处 理 并 兼容 不 同 的 数据 格式 ， 
开发 者 在 定义 类 属性 时 无 须 考虑 肥 取 数据 的 数据 格式 ，Scrapy 会 对 数据 格式 做 相 
应 处 理 。 实 现代 码 如 下 : 


import scrapy 


class BaiduItem(scrapy.Item): 


# define the fields for your item here like: 
# name = scrapy.Field() 

TitleName - scrapy.Field() 

pass 


打开 pipelines.py, Scrapy 已 生成 类 BaiduPipeline 和 相关 说 明 ， 类 BaiduPipeline 
就 是 setting.py 配置 ITEM PIPELINES 的 内 容 。 数 据 存 储 主要 在 类 方法 process_ 
item() 中 执行 ， 本 项 目 以 将 数据 存储 在 文本 文档 为 例 进行 介绍 ， 代 码 如 下 : 


class BaiduPipeline (object): 
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def process item(self, item, spider): 
# 参数 item 是 items.py 的 对 象 
+ 以 下 代码 自行 编写 
file = open('E:\\data.txt', 'a') 
for i in item['TitleName']: 
value = i.replace("Wn", "") 
file.write(value + "\r\n") 
file.close() 


+ 以 上 代码 自行 编写 
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# return 主要 输出 item 内 容 ， 若 不 需要 ， 则 可 注释 掉 


return item 


EEI spiders (文件 夹 ) 用 于 编写 肘 虫 规则 ， 可 以 在 已 有 的 _ init_.py 文件 中 编写 具体 
的 息 虫 规则 ， 但 实际 开发 可 能 有 多 个 从 虫 规则 ， 所 以 建议 一 个 疏 虫 规则 用 一 个 文 
件 表示 ， 这 样 便于 维护 和 管理 。 回 到 项 目 中 ， 我 们 创建 文件 Spider spiders.py; 
代码 如 下 : 


# 导入 items.py Ñ BaiduItem, FUERA 
from baidu.items import BaiduItem 
4$ Scrapy 自 带 数据 清洗 模块 
from scrapy.selector import Selector 
* Scrapy 搜索 引擎 
from scrapy.spider import Spider 
# ERRU, AERAR IKAR Se 
class Baispider (Spider): 
+ 属性 name UAE, MAEA, APTER 
name = "Baidu_know" 
# 设置 允许 访问 域名 
allowed domains = ["baidu.com"] 
+ 设置 URL 
start urls = [ 
"https://zhidao.baidu.com/list?cid-110", 
"https://zhidao.baidu.com/list?cid-110102" 
] 
# 函数 parse 处 理 响应 内 容 ， 函 数 名 不 能 更 改 。 


def parse(self, response): 

# 将 响应 内 容 生 成 Selector， 用 于 数据 清洗 

sel = Selector (response) 

items = [] 

# 定义 BaiduItem 对 象 

item = BaiduItem() 

title = sel.xpath('//div[Gclass-"question-title"]/a/ 
text()').extract() 

for i in title: 


items.append(i) 
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item['TitleName'] - items 


return item 
上 述 代码 说 明 如 下 : 

COD 怜 虫 规则 以 类 为 实现 单位 ， 并 继承 父 类 Spider, Spider 是 Scrapy KEH 5| 
敬之 一 。 

(2) 属性 name 不 能 为 空 ， 其 是 程序 运行 入 口 ， 如 果 有 多 个 樵 虫 规则 ， 那 么 每 个 
规则 的 属性 name 不 能 重复 ， 和 否则 Scrapy 无 法 识别 执行 哪 一 个 疏 虫 规则 。 

(3) allowed domains 是 设置 允许 访问 的 域名 ， 如 果 为 空 ， 就 说 明 对 域名 不 做 访 
问 限制 。 

(4) start urls 用 于 设置 怜 取 对 象 的 URL， 程 序 运 行 时 会 对 start. urls 遍历 处 理 。 


(5) 类 方法 parse0 用 于 处 理 网 站 的 响应 内 容 ， 如 果 礁 虫 引 擎 是 Spider， 方 法 名 
就 不 能 更 改 。 


完成 上 述 功能 开发 后 ， 使 用 CMD (终端 ) 启动 程序 ， 将 路 径 切换 到 E:\baidu， 运 
行 命令 如 下 : 


E:\baidu>scrapy crawl Baidu know 


scrapy crawl 是 启动 Scrapy 的 命令 符 ，Baidu know 是 Spider spiders.py 文件 的 
Baispider 类 属性 name。 程 序 运行 结果 如 图 17-5 所 示 。 

从 运行 结果 看 出 ， 程 序 对 start urls 的 URL 遍历 访问 ， 并 返回 None 对 象 。 因 为 
对 pipelines.py 的 retum item 做 了 注释 处 理 ， 如 果 去 掉 注释 ,就 会 返回 仆 取 的 数据 内 容 。 
程序 运行 结束 后 ，Scrapy 会 将 运行 信息 返回 ， 开 发 人 员 可 根据 信息 调整 setting.py 的 
并 发 数 和 延 时 配置 。 

Baispider 类 继承 自 父 类 Spider, 在 Scrapy 中 , KE ZUE Hh fi H] Spider 类 足以 胜任 ， 
如 果 要 疏 取 全 站 数据 而 且 具 有 一 定 规则 的 网 站 ，Spider 虽然 可 以 实现 ， 但 实现 过 程 相 
当 复杂 ， 这 时 我 们 需要 更 强大 的 武器 CrawlSpider。 
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? [scrapy.core 
cid=11818: 











图 17-5 Scrapy 运行 结果 


CrawlSpider 也 继承 自 父 类 Spider， 拥 有 父 类 Spider 的 全 部 属性 ， 并 有 自身 的 独 
特 属性 。 





(1) rules 是 Rule 对 象 的 集合 ， 用 于 匹配 目标 网 站 并 排除 干扰 。 
(2) parse start. url 用 于 疏 取 起 始 响应 ， 必 须要 返回 Item, Request 是 其 中 之 一 。 

















以 上 述 项 目 为 例 ， 使 用 CrawlSpider 实现 上 述 怜 虫 规则 : 首先 在 spiders (文件 夹 ) 
下 创建 文件 CrawlSpider spiders.py， 代 码 如 下 : 


# 导入 items .py 的 BaiduItem， 存 放 疏 取 数据 

from baidu.items import BaiduItem 

# Scrapy 自 带 数据 清洗 模块 

from scrapy.selector import Selector 

# SAX CrawlSpider 

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors import LinkExtractor 
+ ERRI, AERARII S 


class Baispider (CrawlSpider): 
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+ 属性 name 必须 设置 ， 而 且 是 唯一 命名 的 ， 用 于 运行 朴 虫 

name = "Baidu" 
# 设置 允许 访问 域名 

allowed domains = ["baidu.com"] 
# 设置 URL 

start urls = [ 

"https://zhidao.baidu.com/list?cid-110" 
] 

+ 编写 爬 取 规 则 

rules = ( 

Rule (LinkExtractor (allow- ('zhidao.baidu.com/question/', ), 
deny-(),), callback-'parse item'), 
) 

# 编写 处 理 函数 

def parse item(self, response): 

sel = Selector (response) 
items - [] 
item = BaiduItem() 
title = sel.xpath('//span[G8class-"ask-title "]/text()'). 
extract() 
for i in title: 
items.append(i) 
item['TitleName'] - items 
return item 


上 述 代 码 与 Spider_spiders.py 的 实现 功能 是 一 致 的 ， 但 在 逻辑 处 理 上 完全 不 同 : 
(1) Spider spiders.py 继承 自 Spider， 运 行 方式 是 遍历 start. urls 的 URL， 从 每 
个 URL 获取 数据 ， 数 据 主要 来 源 于 start urls 的 URL. 
(2) CrawlSpider_spiders.py 继承 自 CrawlSpider，start_urls 的 URL 被 访问 后 ， 获 


取 其 响应 内 容 里 的 URL 列表 ， 再 根据 rules 规则 对 得 到 的 URL 列表 进行 筛选 ， 选 出 所 
有 符合 规则 的 URL, 并 对 符合 规则 的 URL 调用 callback 所 指定 的 函数 进行 访问 和 处 理 。 


CrawlSpider 类 的 Rule 参数 说 明 如 下 。 


* alow: 满足 括号 中 的 值 会 被 提取 ， 如 果 为 空 ， 就 全 部 匹配 ， 支 持 正则 表达 式 
实现 模糊 匹配 。 
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e deny: 与 匹配 值 不 匹配 的 URL 不 提取 。 

* allowed domains: 会 被 提取 的 URL 的 domains. 

e deny domains: 一 定 不 会 被 提取 URL 的 domains. 

* callback: 指定 回调 函数 处 理 符合 筛选 规则 的 URL 的 响应 内 容 。 


从 运行 逻辑 分 析 ，CrawlSpider 爬虫 更 适合 全 站 数据 爬 取 和 通用 爬虫 开发 。 因 
为 rules 是 Rule 对 象 的 集合 ， 如 果 需 要 编写 多 个 规则 ， 就 可 以 设置 多 个 Rule 对 象 ， 
callback 所 指定 的 函数 也 可 以 自行 命名 。 相 对 Spider 来 说 ，CrawlSpider 在 使 用 上 较为 
灵活 一 些 。 





17.5 Spiders 介绍 


Spider 是 定义 如 何 抓 取 某 个 网 站 〈 或 一 组 网 站 ) 的 类 ， 包 括 如 何 执行 抓 取 《访问 
URL) 以 及 如 何 从 页 面 中 提取 结构 化 数据 〈 抓 取 数 据 ) 。 换 句 话说，Spider 是 开发 者 
自 定义 的 类 ， 用 于 为 特定 网 站 〈 在 某 些 情况 下 是 一 组 网 站 ) 抓 取 和 解析 页 面 。 


Spider 的 执行 周期 如 下 : 


(1) 抓 取 第 一 个 URL 的 初始 请 求 ， 然 后 指定 一 个 回调 函数 ， 从 请 求 的 响应 来 调 
用 回调 函数 ， 请 求 链接 通过 调用 statt requests 方法 〈 该 方法 在 默认 情况 下 是 GET 方 
式 ) parse 方法 作为 回调 函数 处 理 请 求 链接 返回 的 请 求 结果 。 

(2) 在 回调 函数 中 ， 主 要 是 解析 响应 〈 网 页 ) 内容， 并 将 解析 后 的 数据 存储 在 
Item 对 象 中 。 如 果 解 析 的 内 容 中 需要 产生 多 次 请 求 ， 就 可 将 URL 传递 给 Request 对 
象 并 指定 某 个 回调 函数 ， 然 后 由 Scrapy 访问 下 载 ， 通 过 指定 的 回调 处 理 它们 的 响应 。 

(3) 在 回调 函数 中 ,通常 使 用 选择 器 (也 可 以 使 用 BeautifulSoup、lxml 45:55 — 77 FE) 
解析 页 面 内 容 ， 并 将 解析 的 数据 存储 在 Item 对 象 中 。 





最 后 ， 从 Spider 返回 的 Item 对 象 在 item pipeline 对 象 中 进行 数据 存储 。 
Spider 的 种 类 如 下 。 


*  scrapyspiders.Spider: 最 简单 的 Spider 类 ， 其 他 的 Spider 也 继承 自 该 类 ( 包 
括 Scrapy 其 他 定义 的 Spider 以 及 开发 者 自 定义 的 Spider) 。 它 不 提供 任何 特 
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殊 的 功能 ， 只 提供 一 个 默认 的 start requests() 方法 ， 请 求 从 start. urls 开始 ， 
Spider 发 送 请 求 ， 并 使 用 函数 parse 处 理 每 个 响应 内 容 。 
scrapy.spiders.CrawlSpider: 这 是 抓 取 常规 网 站 最 常用 的 Spider， 因 其 提供 了 一 
个 方便 的 机 制 ， 可 通过 定义 一 组 规则 来 跟踪 URL， 适 合 全 站 数据 爬 取 和 通用 
爬虫 开发 。 除 了 拥有 scrapyspiders.Spider 全 部 属性 之 外 ， 还 有 特定 属性 rules 
和 parse start url 方法 。 

scrapy.spiders.XMLFeedSpider: /f ÄR XML 形式 的 网 页 内 容 ， 通 过 某 个 指 
定 的 节点 来 遍历 。 可 使 用 itemodes、xml 和 html 三 种 形式 的 迭代 器 ， 不 过 当 内 
容 比较 多 的 时 候 ， 推 荐 使 用 itemodes， 可 以 节省 内 存 、 提 升 性 能 ， 不 需要 将 整 
个 DOM 加 载 到 内 存 中 再 解析 ， 而 使 用 html 可 以 处 理 XML 有 格式 错误 的 内 容 。 
scrapy.spiders.CSVFeedSpider: 与 XMLFeedSpider 非常 相似 ， 其 遍历 CSV 行 数 ， 
在 每 个 迭代 中 被 调用 的 方法 是 parse. Tow()。 

scrapy.spiders.SitemapSpider: SitemapSpider 通过 使 用 Sitemaps 发 现 网 址 并 抓 
MAI, RRA Sitemap 和 从 robots.txt PIL Sitemap 网 址 。 这 类 爬虫 主要 
用 于 搜索 引擎 开发 ， 主 要 用 于 爬 取 整 个 网 站 的 地 图 和 全 部 URL. 


一 般 来 说 ， 目 前 大 多 数 网 站 主要 以 HTML 为 主 ，Spiders 开发 是 以 Spider 和 
CrawlSpider 为 主 ， 本 书 主要 以 这 两 者 为 讲述 对 象 。 


17.6 Spider 的 编写 


从 17.4 节 的 内 容 得 知 ，Spider_spiders.py 扑 虫 规则 的 请 求 方式 都 是 GET 请 求 ， 但 
在 实际 开发 中 , 我 们 还 需要 使 用 POST 请 求 , 那么 如 何在 Spider 中 实现 POST 请 求 呢 ? 


首先 创建 一 个 新 的 项 目 ， 命 名 为 mySpider: 





scrapy startproject mySpider 


在 项 目 里 的 spiders (文件 夹 》 中 创建 文件 post_spiders.py， 代 码 如 下 : 


from scrapy.selector import Selector 


from scrapy.spider import Spider 


import scrapy 


class Baispider (Spider): 
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name = "Post spider" 
allowed domains - [] 
start urls - [ 


"http://121.0.0.1:5000/", 

] 

# ERAO—EĦ start requests 方法 

# scrapy.FormRequest Æ POST 方式 ，formdata 是 POST 234, callback 回调 
函数 

def start requests (self): 

return [scrapy.FormRequest ( 

self.start urls[0], 

formdata-("Python": "爬虫 开发 "} ， 

callback-self.mypsot)] 

# 回调 函数 

def mypsot(self, response): 

data = Selector (response) . xpath (' //p/text () ') . extract () [0] 

print (data) 


整个 项 目 mySpider 只 添加 上 述 代 码 和 文件 ， 其 余 文 件 不 做 修改 和 添加 。 为 了 
方便 测试 代码 ， 我 们 在 本 地 使 用 Flask 搭建 一 个 测试 系统 (Flask 安装 : pip install 
flask) ， 系 统 代码 如 下 : 


from flask import Flask, request 
app - Flask( name ) 
# app.route 设置 URL 路 径 ，methods 是 请 求 方式 
$ hello world 视图 函数 
Qapp.route('/', methods-['POST', 'GET']) 
def hello world(): 
# 判断 请 求 方式 ， 返 回 不 同 结果 
# POST 请 求 
if request.method == "POST ' : 
return "This is Post,your post data is " + request. 
form['Python'] 
4 GET 请 求 
else: 
return 'Hello World!" 
+ 系统 启动 运行 
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Tf name 一 一 main 





app.run() 


将 系统 代码 保存 在 system.py 文件 中 ， 





运行 mySpider 项 目 ， 


inel 








然后 运行 文件 即 可 启动 系统 。 系 统 启动 后 ， 


运行 结果 如 图 17-6 所 示 。 


D 











图 17-6 post : 


可 以 看 到 运行 结果 输出 


spiders 运行 结果 


“This is Posbyour post data is 爬虫 开发 ”， 返 回 结 果 和 


可 重 写 start requests 来 改写 初始 请 求 方式 。 





Flask 系统 代码 是 一 致 的 , 说 明 在 Scrapy H 
一 个 完整 的 仆 虫 会 将 POST 和 GET 


请 求 相互 交错 使 用 ， 而 且 每 个 请 求 都 可 能 需 


HE 而 


要 特定 的 请 求 头 和 Cookies。 以 mySpider 项 目 为 例 实 现 上 述 功能 需求 : 在 mySpider 
项 目的 spiders CUER) 下 新 建文 件 get. post_spiders.py， 代 码 如 下 : 


from scrapy.selector import S 
from scrapy.spider import Spi 


import scrapy 


class Baispider (Spider): 
name = "Get Post spider" 


[] 


allowed domains 


[ 


start urls 


elector 


der 


"http://127.0.0.1:5000/", 
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+ 定义 请 求 头 和 Cookies， 两 者 皆 以 字典 形式 表示 
headers = ('User-Agent': 
'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0', 
) 


cookies = {} 


# 处 理 第 一 次 GET 请 求 的 响应 内 容 ，return 用 于 发 送 第 二 次 POST 请 求 
def parse(self, response): 
data = Selector (response) .xpath('//p/text () ') .extract () [0] 
print (data) 
return [scrapy.FormRequest ( 
self.start urls[0], 
cookies-self.cookies, 
headers-self.headers, 
formdata-("Python": "JfmhJFAE"), 
callback-self.mypsot)] 


+ 处 理 第 二 次 POST 请 求 的 响应 内 容 ，return 用 于 发 送 第 三 次 GET 请 求 
def mypsot (self, response): 
data = Selector (response) .xpath('//p/text () ') .extract () 
[0] 
print (data) 
return scrapy.Request(self.start urls[0], cookies-self. 
cookies, 
headers-self.headers, 
callback-self.myget) 


# 处 理 第 三 次 GET 请 求 的 响应 内 容 

def myget(self, response): 
data = Selector (response) . xpath(' //p/text () ') . extract () [0] 
print (data) 


从 上 述 代码 分 析 三 次 请 求 : 


第 一 次 GET 请 求 是 Scrapy 默认 start requests 实现 的 ， 回 调 函 数 是 parse。 
第 二 次 POST 请 求 是 在 函数 parse 处 理 完 第 一 次 请 求 的 响应 内 容 后 ， 通 过 retum 
发 送 第 二 次 请 求 ， 并 设置 请 求 头 和 Cookies， 回 调 函 数 是 mypsot。 
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第 三 次 GET 请 求 是 在 函数 mypsot 处 理 完 第 二 次 请 求 的 响应 内 容 后 ， 通 过 return 


发 送 第 三 次 请 求 ， 并 设置 请 
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CMD 窗口 ， 运行 get post spiders.py 
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ned 





图 
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图 17-7 get. post spiders 运行 结果 


此 外 ，Spiders 中 的 CrawlSpider.. XMLFeeds; 
都 继承 于 父 类 Spider， 因 此 前 面 实现 的 功能 都 适 














17.7 ltems 的 编写 


pider、CSVFeedSpider 和 SitemapSpider 
用 于 Spiders 所 有 类 。 





数据 抓 取 的 主要 目标 是 从 非 结 构 化 来 源 
Scrapy 可 以 将 提取 的 数据 作为 Python 字典 返回 
会 在 输入 时 出 现 拼写 错误 或 者 返回 数据 不 一 致 ， 
于 管理 和 规范 仆 取 数据 ， 使 其 结构 规范 化 。 

Items 主要 存放 在 项 目 
类 属性 为 Items 的 字段 ， 
脱离 Scrapy 项 目 单独 使 

















五 


















































import scrapy 
* Product 类 继承 自 Item 类 


class Product (scrapy.Item): 
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文件 items.py 中 ， 每 个 Items 对 象 以 类 的 形式 声明 和 命名 ， 
也 就 是 需要 存储 数据 的 元 数据 键 (metadata key) . Items 可 
， 为 了 更 好 演练 ， 在 E 盘 下 创建 文件 items.py， 代 码 如 下 : 


(通常 是 网 页 ) 中 提取 结构 化 数据 。 
， 但 Python 字典 缺乏 结构 ， 字 典 的 键 
此 ，Scrapy 提供 了 Items 对 象 ， 















































EA] 
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name = scrapy.Field() 

price = scrapy.Field() 

stock = scrapy.Field() 

# last updated 指明 了 该 字段 的 序列 化 函数 

last updated = scrapy.Field(serializer-str) 
if | name --" main ": 
product - Product (name-'Desktop PC', price-1000) 
print (product) 


使 用 代码 定义 Product 类 ， 类 属性 name. price. stock 和 last updated 分 别 代 表 产 
品名 称 、 价 格 、 库 存 数 和 更 新 时 间 。Scrapy 声明 字段 无 须 考虑 其 数据 类 型 ， 统 一 以 
scrapy.Field() 命名 即 可 。 运 行 items.py 文件 ， 输 出 结果 如 下 : 


('name': 'Desktop PC', 'price': 1000) 
除 此 之 外 ， 还 可 以 对 其 进行 读 取 和 判断 等 操作 。 代 码 如 下 : 


# 数据 存储 一 

product = Product (name-'Desktop PC',price-1000) 
print (product) 

* 数据 存储 二 

item = Product () 

item['name'] = 'Mac' 

item['price'] - 2000 

print (item) 

# 读 取 数 据 内 容 一 ， 若 不 存在 ， 则 会 输出 None 
print(item.get('name', 'None')) 
print(item.get('stock', 'None')) 

# 读 取 数 据 内 容 二 ， 使 用 该 方法 读 取 ， 若 不 存在 ， 则 会 提示 keyerror 
print (item['name']) 

# print(item['stock']) 

# 判断 是 否 存在 字段 ， 输 出 True 或 False 

print('name' in item) 

print('stock' in item) 

# 获取 键 值 对 

print (item.keys ()) 


print (item.items()) 
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17.8 Item Pipeline 的 编写 
























































当 Spiders JEH H ZR T£ XC] Items 之 后 ， 回 调 [a E MyMengoedb (3) 
函数 的 return. Cyield) 返回 Items 对 象 ， 这 时 会 触发 a xen 
Item Pipeline 对 Items 对 象 的 操作 。Item Pipeline 主要 2 à Collections (2) 
存放 在 项 目 文件 pipelines.py 中 , 用 于 实现 数据 存储 。 4 国 scrapy db 
以 17.4 节 的 项 目 为 例 ， 我 们 将 数据 存储 介质 由 文本 gu ed 0 
文档 改 为 MongoDB，MongoDB 的 数据 库 结构 信 息 PEBue — 
如 图 17-8 所 示 。 b jj Functions 

b jj Users 
数据 库 信 息 如 下 : 
CD 数据 库 所 在 服务 器 的 IP 地 址 : localhost. 17-8 MongoDB 数据 库 


(2) 数据 库 端 口 : 27017。 
(3) 数据 库 名 : testCollection 名 称 : scrapy_db。 


将 数据 库 信息 写 入 配置 文件 setting.py， 在 setting.py 中 添加 以 下 代码 : 





ITEM PIPELINES = { 
'baidu.pipelines.BaiduPipeline': 300, 

) 

+ 数据 库 IP 

MONGODB SERVER = "localhost" 

# 端口 

MONGODB PORT = 27017 

* Database 名 称 

MONGODB DB - "test" 

4 Collection 名 称 

MONGODB COLLECTION - "scrapy db" 


完成 数据 库 信息 配置 ， 接 着 编写 Item Pipeline 功能 代码 ，pipelines.py 的 代码 如 下 : 


# 导入 Pymongo 
from pymongo import MongoClient 
4$ 导入 setting 配置 信息 


from scrapy.conf import settings 
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class BaiduPipeline (object): 
def init (self): 
# 连接 数据 库 
connection = MongoClient( 
settings['MONGODB SERVER'], 
settings['MONGODB PORT'] 





) 
db = connection[settings['MONGODB DB']] 
self.collection - db[settings['MONGODB COLLECTION']] 


def process item(self, item, spider): 
# 入 库 处 理 
self.collection.insert (dict(item)) 


return item 


以 17.4 节 的 Spider spiders.py 爬虫 规则 运行 程序 ， 并 查看 数据 库 的 数据 信息 ， 如 
图 17-9 所 示 。 














uM cdm | O b. setColleotiont seran | 
^ Ji System 
4 Bi test. ME MuMongodb (B localhost:27017 E test 
e e 
4 [73 scrapy db 
4 i Indexes (1) 国 serepy.db @ 0.003 sec 
m ® ja Key Value 
A Arendt 4 四 (1) Objectid("5a30e08d9289e020a842fb96") (2 fields } 
Ses Ci .jd Objectid(5a30e08d9289e0202842fb96") 
> (EB TileName [ 30 elements ] 
4 ® (2) Objectid(5a30e089289e0202842fb97") (2 fields ) 
D jd Objectid(5a30e08d9289e0202842fb97") 
> (EB TileName 30 elements ] 











17-9 MongoDB 入 库 结果 


从 入 库 结 果 看 到 ， 生 成 了 两 条 文档 ， 每 条 文档 对 应 Spider spiders.py 中 start. urls 
的 数量 ， 每 条 URL 有 30 条 数据 ， 也 符合 字段 TitleName 的 数据 量 。 从 代码 分 析 ， 在 
类 BaiduPipeline 的 初始 (init 2 函数 中 实现 数据 库 连 接 功 能 ， 在 函数 process item 
中 实现 数据 入 库 。 

上 述 功能 实现 MongoDB 入 库 ， 若 要 使 用 SQLAlchemy 实现 数据 入 库 ， 则 实现 
方式 与 上 述 大 致 相同 。 同 样 以 17.4 节 的 项 目 为 例 ， 以 MySQL 数据 库 为 存储 对 象 ， 
MySQL 数据 库 信息 如 下 : 
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COD 数据 库 所 在 服务 器 的 IP 地 址 : localhost. 
(2) 数据 库 用 户 : root. 

G) 数据 库 密码 : 1234. 

(4) 数据 库 名 : test。 


将 数据 库 信息 写 入 配置 文件 settingpy， 在 setting.py 中 添加 代码 如 下 : 


# SQLAlchemy 连接 数据 库 
MYSQL CONNECTION = 'mysql*pymysql://root:123481ocalhost/ 


test?charset-utf8' 
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编写 Item Pipeline 功能 代码 ，pipelines.py 的 代码 如 下 : 


# 导入 SQLAlchemy 

from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
# 导入 setting 配置 信息 


from scrapy.conf import settings 


# 定义 映射 类 

Base = declarative base() 

class scrapy db(Base): 
. tablename = 'scrapy db' 
id - Column(Integer(), primary key-True) 
TitleName = Column (String (200) ) 


class BaiduPipeline (object): 
def init (self): 
# 初始 化 ， 连 接 数据 库 
conntion = settings['MYSQL CONNECTION'] 
engine - create engine(conntion, echo-False, 
pool size-2000) 
DBSession = sessionmaker (bind-engine) 


self.SQLsession - DBSession() 
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# 创建 数据 表 


Base.metadata.create all(engine) 


def process item(self, item, spider): 
# 入 库 处 理 
self.SQLsession.execute(scrapy db. table  .insert(), 
[('TitleName': i) for i in item['TitleName']]) 
self.SQLsession.commit () 
return item 


以 17.4 节 的 Spider spiders.py JE 3X uie £p Fey, HEARR PEU RS. Un 
图 17-10 所 示 。 
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17-10 SQLAlchemy 入 库 结果 


从 图 17-10 得 知 ， 入 库 数 据 量 和 使 用 MongoDB 入 库 的 数据 量 是 一 致 的 。 无 论 使 
关系 式 数据 库 还 是 非 关 系 式 数据 库 ， 数 据 入 库 轴 辑 都 是 相同 的 ， 根 据 数据 入 库 轴 辑 
总 结 Item Pipeline 编写 规则 如 下 : 
































(1) 使 用 setting.py 配置 数据 库 信 息 。 数 据 库 信息 最 好 在 setting.py 中 配置 ， 这 
符合 统一 规范 化 开发 要 求 。 

(2) 对 pipelines.py 的 类 初始 化 C. init. 5 函数 实现 数据 库 连 接 。 如 果 使 用 
SQLAlchemy 入 库 ， 那 么 还 需 创建 映射 类 映射 数据 表 。 

(3) 由 函数 process item 实现 数据 入 库 。 
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17.9 Selectors 的 编写 


当 抓 取 网 页 时 ， 最 常见 的 任务 是 从 HTML. 源码 中 提取 数据 。Scrapy 提取 数据 有 
一 套 机 制 ， 被 称 作 选 择 器 (Seletors) ， 通 过 特定 的 XPath 或 者 CSS 表达 式 来 选择 
HTML 中 的 某 部 分 数据 。 当 然 ，lxml 和 BeautifulSoup 也 可 以 在 Scrapy 中 担任 数据 清 
洗 角色 。 

Scrapy 选择 器 主要 用 于 疏 虫 规则 的 编写 。 以 17.4 节 的 Spider spiders.py 爬虫 规则 
为 例 进 行 介绍 : 


# 导入 items .py 的 BaiduItem， 存 放 疏 取 数据 
from baidu.items import BaiduItem 

4 Scrapy 自 带 数据 清洗 模块 

from scrapy.selector import Selector 
# Scrapy 搜索 引擎 

from scrapy.spider import Spider 


* ERR, AERAR IK 


class Baispider (Spider): 
+ 属性 name VARE, mu Een Anf, APTER 
name = "Baidu know" 
# 设置 允许 访问 域名 
allowed domains = ["baidu.com"] 
+ 设置 URL 
start urls - [ 
"https://zhidao.baidu.com/list?cid-110", 
"https://zhidao.baidu.com/list?cid-110102" 
] 
+ 函数 parse 处 理 响 应 内 容 ， 函 数 名 不 能 更 改 
def parse(self, response): 
# 将 响应 内 容 生 成 Selector， 用 于 数据 清洗 
sel = Selector (response) 
items - [] 
# 定义 BaiduItem 对 象 
item = BaiduItem() 
title = sel.xpath('//div[G8class-"question-title"]/a/ 
text()').extract() 
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for i in title: 
items.append(i) 
item['TitleName'] - items 


return item 
从 上 述 代 码 可 知 ， 选 择 器 的 使 用 步骤 如 下 : 


(1) from scrapy.selector import Selector: 导入 Selector 对 象 。 
(2) sel = Selector(response): 声明 Selector 对 象 ， 并 将 响应 内 容 加 载 该 对 象 中 。 


(3) sel.xpath(XPath 语法 ).extract(): 使 用 XPath 对 数据 进行 清洗 ， 方 法 extract) 
将 数据 以 列表 形式 返回 。 


XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HTML rh. CSS 
是 一 门将 HTML 文档 样式 化 的 语言 ， 选 择 器 由 它 定 义 ， 并 与 特定 HTML 元 素 的 样式 
相关 。 在 两 者 的 使 用 上 ， 大 部 分 开发 人 员 偏向 于 XPath。 选 择 器 主要 掌握 XPath 或 者 
CSS 语法 编写 规则 ， 本 书 以 XPath 语法 为 讲述 重点 。 


XPath 使 用 路 径 表达 式 来 选取 XML 文档 中 的 节点 或 节点 集 ， 节 点 是 通过 沿 着 路 
径 (path) 或 者 步 (steps) 来 选取 的 , 使 用 XPath 获取 数据 主要 是 找到 数据 所 在 的 路 径 。 
例子 如 下 : 


<html> 
<head> 
<base href-'http://example.com/' /> 
<title>Example website</title> 
</head> 
<body> 
<div id-'images'» 
<a href="'imagel.html'>Name: My image 1 «br /><img src-'imagel _ 
thumb.jpg' /»«/a» 
<a href-'image2.html'»Name: My image 2 «br /»«img src-'image2 
thumb.jpg' /»«/a» 
<a href-'image3.html'»Name: My image 3 «br /»«img src-'image3 
thumb.jpg' /»«/a» 
<a href-'image4.html'»Name: My image 4 «br /><img src-'image4 - 
thumb.jpg' /»«/a» 
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<a href-'image5.html'^Name: My image 5 «br /»«img src-'image5 - 
thumb.jpg' /»«/a» 
</div> 
</body> 
</html> 


根据 上 述 例子 获取 标签 <a>，href 属性 为 imagel.html 的 内 容 ，Xpath 语法 如 下 


xpath('//div[Gid-"images"]/a[Ghref-"imagel.html]"/text()'). 
extract() 


或 者 : 
xpath('//a[l@href="imagel.html]"/text()') .extract () 
对 于 上 述 两 种 不 同 的 定位 方法 ， 说 明 如 下 : 


(OD 第 一 种 方法 是 因为 标签 <a> k E E <div> 中 ， 所 以 先 通过 /div[@ 
id-"images"] 对 <div> 定位 ， 在 已 定位 <div> 的 基础 上 添加 /a[@href="image1.html], 
说 明 先 查找 <div>， 再 查找 <div> 里 面 的 <a>。 

(2) 第 二 种 方法 是 因为 标签 <a> 的 href 属性 为 imagel.html, fESEBE HTML 中 
具有 唯一 性 ， 所 以 直接 对 标签 <a> 定位 即 可 。 


上 述 例子 使 用 “//”“/” 和 “@” 这 类 特殊 符号 ， 这 是 XPath 的 路 径 表 达 式 ， 常 
用 的 XPath 路 径 表 达 式 如 表 17-1 所 示 。 


表 17-1 XPath 路 径 表 达 式 





选取 此 节点 的 所 有 子 节点 

从 根 节点 选取 

从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 而 不 考虑 它们 的 位 置 
选取 当前 节点 

选取 当前 节点 的 父 节点 

选取 属性 


除了 路 径 表 达 式 外 ，XPath HIES (D 可 嵌 套 谓语 〈 用 来 查找 某 个 特定 的 节 
点 或 者 包含 某 个 指定 值 的 节点 ) 。 简 单 地 说 ， 方 括号 中 可 编写 标签 的 特性 ， 从 而 精确 
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地 找 出 所 需 的 数据 ， 如 表 17-2 所 示 。 


表 17-2 路 径 表 达 式 及 结果 
路 径 表 达 式 结果 
/div/a[1] 选取 属于 div 的 第 一 个 a 标 签 
/div/a[last()] 选取 div 里 最 后 的 a 标 签 











/div/a[lastQ-1] 选取 div 里 倒数 第 二 个 a 标 签 
/div/a[position()-3] 选取 div 前 两 个 a 标 签 
/div/a[@id!="image1.html"] 选取 div 里 属性 id 不 为 imagel.html 的 a 标 签 











XPath 的 定位 与 Windows 系统 的 路 径 相 同 ， 但 计算 机 上 同一 目录 不 允许 存在 同名 
的 文件 或 文件 夹 ， 而 HTML 可 存在 这 种 情况 ， 为 了 解决 这 个 问题 ，XPath 可 对 标签 的 
属性 进行 筛选 ， 若 有 多 个 同时 符合 的 条 件 ， 则 会 获取 全 部 符合 条 件 的 数据 。 


17.10 文件 下 载 


疏 虫 除了 怜 取 数据 之 外 ， 还 常常 需要 疏 取 文件 ， 如 图 片 、 文 本 文件 和 音 视频 
等 。Scrapy 在 下 载 图 片 (文件 ) 时 提供 了 一 个 可 重用 的 Item Pipelines， 称 为 Media 
Pipeline。Media Pipeline 分 为 Files Pipeline 和 Images Pipeline。 


Files Pipeline 和 Images Pipeline 实现 的 功能 如 下 : 





O) 能 避免 重新 下 载 已 下 载 过 的 数据 。 
(2) 可 以 指定 下 载 后 保存 的 路 径 。 


Images Pipeline 为 处 理 图 片 提供 了 额外 的 功能 : 


(1) 将 所 有 下 载 的 图 片 格式 转换 成 普通 的 JPEG 并 使 用 RGB 颜色 模式 。 
Q) 生成 缩 略 图 。 
G) 检查 图 片 的 宽度 和 高 度 ， 确 保 它们 满足 最 小 的 尺寸 限制 。 


Pipeline 同时 会 在 内 部 保存 一 个 被 调度 下 载 的 URL 列表， 然后 将 包含 相同 媒体 的 
链接 关联 到 这 个 队列 上 来 ， 从 而 防止 重复 下 载 。 
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使 用 Files Pipeline 实现 下 载 的 步骤 如 下 : 


C307 在 spider 中 惟 取 一 个 Item 后 ， 将 相应 的 文件 URL 放 入 file urls 字段 中 。 

I ltem 被 返回 之 后 就 会 转交 给 Item Pipeline. 

€I 当 这 个 item 到 达 FilesPipeline 时 ， 在 file_urls 字段 中 的 URL 列表 会 通过 标准 的 
Scrapy 调度 器 和 下 载 器 来 调度 下 载 ， 并 且 优先 级 很 高 ， 在 抓 取 其 他 页 面前 就 被 处 
理 。 而 这 个 Item 会 一 直 在 这 个 Pipeline 中 被 锁定 ， 直 到 所 有 的 文件 下 载 完成 。 

ED 当 文件 被 下 载 完 之 后 ， 结 果 会 被 赋值 给 另 一 个 files 字段 。 这 个 字段 包含 一 个 关于 
下 载 文 件 的 新 字典 列表 ， 比 如 下 载 路 径 、 源 地 址 、 文 件 校 验 码 。files 里 面 的 顺序 
和 file url 的 顺序 是 一 致 的 。 若 下 载 出 错 ， 则 不 会 出 现在 这 个 files 中 。 








ImagesPipeline 的 使 用 跟 FilesPipeline 差不多 ， 不 过 使 用 的 字段 名 不 一 样 ，image_ 
urls 用 于 保存 图 片 URL 地 址 ， 使 用 ImagesPipeline 的 好 处 是 可 以 通过 配置 来 提供 额外 
的 功能 ， 比 如 生成 文件 缩 略 图 、 通 过 图 片 大 小 过 滤 需 要 下 载 的 图 片 等 。ImagesPipeline 
使 用 Pillow 来 生成 缩 略 图 以 及 转换 成 标准 的 JPEG/RGB 格式 。 


为 了 进一步 掌握 Scrapy 下 载 功能 ， 分 别 找 出 三 个 文件 下 载 链接 : 


# 下 载 zip 压缩 包 

'http://d.1.didiwl.com/PYTHON zryycl.zip', 

# 下 载 图 片 

'http://i0.hdslb.com/bfs/archive/9a8f816fdadd1b814c5ce51e7ead2531 
9166eb92.jpg', 

# 下 载 歌 曲 文件 

'http://ws.stream.qqmusic.qq.com/C1000011IqoFr2rNsGH. 
m4a?fromtag-38"' 


创建 新 的 Scrapy 项 目 ， 名 为 scrapy_download， 创 建 命令 如 下 : 
scrapy startproject scrapy download 
创建 项 目 后 ， 打 开 setting.py 文件 ， 添 加 以 下 代码 : 


ITEM PIPELINES = ( 
'scrapy download.pipelines.ScrapyDownloadPipeline': 300, 


'scrapy download.pipelines.DownloadFlie': 1, 
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# 设置 保存 路 径 
FILES STORE = 'E:\\full\\' 
# 设置 请 求 头 
DEFAULT REQUEST HEADERS = { 
'Accept': 'text/html,application/xhtml*xml,application/ 
xml;q-0.9,*/*;q-0.8', 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0' 
) 


setting.py 除了 配置 请 求 头 和 文件 保存 路 径 之 外 ， 还 对 ITEM PIPELINES 添加 了 
DownloadFlie 类 ， 当 程序 执行 数据 存储 的 时 候 ， 会 同时 执行 ScrapyDownloadPipeline 
和 DownloadFlie 类 。 完 成 setting.py 配置 后 ， 打 开 items.py, E X Items 类 属性 ， 代 码 
Wr: 


import scrapy 
class ScrapyDownloadItem(scrapy.Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
FileUrl - scrapy.Field() 
FileName - scrapy.Field() 


pass 


Items 定义 了 FileUrl 和 FileName， 分 别 是 文件 下 载 链 接 和 文件 名 。 接 着 在 spiders 
(文件 夹 ) 下 新 建 download_spider.py 文件 ， 代 码 如 下 : 


from scrapy download.items import ScrapyDownloadItem 
from scrapy.spider import Spider 
# 导入 setting.py 配置 信息 
from scrapy.conf import settings 
class downspider (Spider): 
name = "downspider" 
allowed domains - [] 
start urls - [ 
'"http://ws.stream.qqmusic.qq.com/C100001IqoFr2rNsGH. 
m4a?fromtag-38"' 
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b 


def parse(self, response): 
# 下 载 方法 一 
f- open(settings['FILES STORE'] + 'MySong.m4a', 'wb') 
f.write (response .body) 
f.close() 
# 下 载 方法 二 
item = ScrapyDownloadItem() 
item['FileName'] - ['PythonBook.zip', 'Python.jpg', 
'MyMusic.m4a'] 
item['FileUrl'] = [ 
'http://d.1.didiwl.com/PYTHON zryycl.zip', 
'http://i0.hdslb.com/bfs/archive/9a8f816fdadd 
1b814c5ce51e7ead253191666eb92.jpg', 
'http://ws.stream.qqmusic.qq.com/ 
C100001IqoFr2rNsGH.m4a?fromtag-38' 
] 


return item 


从 代码 中 看 到 ， 函 数 parse 实现 了 两 种 下 载 方式 : 


(1) 方法 一 是 通过 访问 文件 链接 得 到 链接 的 响应 内 容 〈 文 件 的 字 节 流 ) ， 然 后 
将 响应 内 容 (文件 的 字 节 流 ) 写 入 文件 ， 这 种 下 载 方式 与 requests 库 下 载 文件 一 致 。 

(2) 方法 二 是 将 文件 链接 和 文件 名 写 入 Items 对 象 ， 然 后 将 Items 传 到 Item 
Pipeline 实现 文件 下 载 。 


最 后 在 pipelines.py 实现 下 载 功能 ， 代 码 如 下 : 


from scrapy.pipelines.files import FilesPipeline 
from scrapy.pipelines.images import ImagesPipeline 


import scrapy 
# 导入 setting.py 配置 信息 


from scrapy.conf import settings 


class ScrapyDownloadPipeline (object): 


def process item(self, item, spider): 
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+ 入 库 处 理 等 操作 


return item 


# 下 载 功能 
class DownloadFlie (FilesPipeline) : 
# 重 写 get media requests 
def get media requests(self, item, info): 
for index, url in enumerate(item['FileUrl']): 
yield scrapy.Request (url, meta-('name': 


item['FileName'][index]]) 


+ EJ file path， 设置 下 载 的 文件 名 
def file path(self, request, response-None, info-None): 
file name = settings['FILES STORE'] + (request. 
meta['name']) 
return file name 


代码 中 定义 了 类 ScrapyDownloadPipeline 和 DownloadFlie: 
è  ScrapyDownloadPipeline 是 在 创建 项 目 时 自动 生成 的 ， 在 此 不 做 任何 处 理 ， 但 
程序 依然 会 执行 ， 因 为 已 被 setting.py 的 ITEM PIPELINES 激活 。 
*  DownloadFlie 是 自 定 义 的 类 ， 继 承 自 父 类 FilesPipeline (ImagesPipeline) ， 然 
后 将 父 类 的 方法 get media requests 和 file path 进行 重 写 。 
get media requests 的 说 明 如 下 : 
(1) 遍历 item['FileUrl'] (三 个 文件 下 载 链接 ) ， 在 for 循环 中 使 用 enumerate) 
获取 下 载 链接 所 在 列表 的 序号 。 
(2) 获取 序号 对 应 item['FileName'] 的 文件 名 。 
(3) scrapy.Request 设置 了 参数 meta， 该 参数 主要 给 函数 file path 传递 文件 名 。 
file path 的 说 明 如 下 : 


(1) settings[FILES_ STORE'] 用 于 获取 setting.py 的 路 径 配 置信 息 ，request. 
meta['name'] 用 于 获取 函数 get media. requests 的 scrapy.Request() 中 的 meta 信息 。 
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(2) 如 果 不 重 写 该 方法 ，Scrapy 就 会 自行 定义 文件 名 ， 但 Scrapy 对 文件 命名 存 
在 一 定 缺 陷 ， 比 如 下 载 链 接 不 规范 会 出 现 文件 无 法 保存 的 情况 ， 如 音乐 文件 链接 ， 若 
使 用 Scrapy 默认 文件 命名 ， 后 缀 名 会 变 成 .m4a?fromtag=38。 

















n 





在 CMD 窗口 运行 scrapy download 项 目 ， 程 序 运行 完成 后 ， 查 看 文件 下 载 情况 ， 
如 图 17-11 所 示 。 








» 这 台电 脑 本 地 磁盘 (E) » full 





名 称 大 小 类 型 
|J) MyMusic.m4a 252KB MPEG-4 音频 
[P] MySong.m4a 252 KB MPEG-4 言 频 
i E Pythonjpg 81KB JPEG 图 像 
ËE PythonBook.zip 3,868 KB 360E ZIP 文件 











17-11 Scrapy 下 载 文件 


17.11 本 章 小 结 


Scrapy 是 一 个 为 了 扑 取 网 站 数据 、 提 取 结 构 性 数据 而 编写 的 应 用 框架 ， 主 要 应 用 
在 数据 挖掘 、 信 息 处 理 或 存储 历史 数据 等 一 系列 程序 中 。 其 最 初 是 为 了 页 面 抓 取 所 设 
计 的 ， 也 可 以 应 用 在 获取 API 所 返回 的 数据 (例如 Amazon Associates Web Services) 
或 者 通用 的 网 络 怜 虫 中 。 通 过 本 章 的 学 习 ， 读 者 应 当 掌 握 以 下 技能 : 









































1. Scrapy 的 运行 机 制 


(1) 引擎 从 调度 器 中 取出 一 个 URL (URL) ， 用 于 接 下 来 的 抓 取 。 


(2) 引擎 把 URL 封装 成 请 求 (Request) 传 给 下 载 器 ， 下 载 器 把 资源 下 载 后 封 
装 成 应 答 包 (Response) 。 


(35 ERHET Response. 
(4) 若 解析 出 实体 Atem) ， 则 交 给 实体 管道 进行 进一步 的 处 理 。 
C5) 若 解析 出 的 是 URL， 则 把 URL 交 给 Scheduler 等 待 抓 取 。 
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数据 抓 取 的 主要 目标 是 从 非 结 构 化 来 源 〈 通 常 是 网 页 ) 中 提取 结构 化 数据 。 
Scrapy 可 以 将 提取 的 数据 作为 Python 字典 返回 ， 但 Python 字典 缺乏 结构 ， 字 典 的 键 
会 在 输入 时 出 现 拼写 错误 或 者 返回 数据 不 一 致 ， 因 此 ，Scrapy 提供 了 Items 对 象 ， 用 
于 管理 和 规范 疏 取 数据 ， 使 其 结构 规范 化 。 


2. Item Pipeline 的 编写 规则 


24 Spiders 疏 取 的 数据 存放 到 Items 之 后 , 回调 函数 的 returm(yield) 返 回 Items 对 象 ， 
就 会 触发 Item Pipeline 对 Items 对 象 的 操作 ， 实 现 数据 存储 。Item Pipeline 的 编写 规则 
如 下 : 


(1) setting.py 配置 数据 库 信息 。 数 据 库 信息 最 好 在 setting.py 中 配置 ， 这 符合 统 
一 规范 化 开发 要 求 。 

(2) 对 pipelines.py 的 类 初始 化 (_ init 2 函数 实现 数据 库 连 接 。 如 果 使 用 
SQLAlchemy 入 库 ， 还 需 创 建 映 射 类 映射 数据 表 。 

(3) 最 后 由 函数 process. item 实现 数据 入 库 。 


当 抓 取 网 页 时 ， 最 常见 的 任务 是 从 HTML 源码 中 提取 数据 ，Scrapy 提取 数据 有 
一 套 机制 ， 被 称 作 选 择 器 CSeletors) ， 通 过 特定 的 XPath 或 者 CSS 表达 式 来 选择 
HTML 中 的 某 部 分 数据 。 当 然 ，LXML 和 BeautifulSoup 也 可 以 在 Scrapy 中 担任 数据 
清洗 的 角色 。 


3. 使 用 Files Pipeline 实现 下 载 的 步骤 
(1) 在 Spider 中 息 取 一 个 Item 后 ， 将 相应 的 文件 URL 放 入 file urls 字段 中 。 


(2) Item 被 返回 之 后 就 会 转交 给 Item Pipeline。 

(3) 当 这 个 Item 到 达 FilesPipeline 时 ， 在 file urls 字段 中 的 URL 列表 会 通过 标 
准 的 Scrapy 调度 器 和 下 载 器 来 调度 下 载 ， 并 且 优 先 级 很 高 ， 在 抓 取 其 他 页 面前 就 被 处 
理 。 而 Item 会 一 直 在 这 个 Pipeline 中 被 锁定 ， 直 到 所 有 的 文件 下 载 完成 。 

(D 当 文件 被 下 载 完 之 后 ， 结 果 会 被 赋值 给 另 一 个 files 字段。 这 个 字段 包含 一 
个 关于 下 载 文件 的 新 字典 列表 ， 比 如 下 载 路 径 、 源 地 址 、 文 件 校 验 码 。files 里 面 的 顺 
序 和 fle url 的 顺序 是 一 致 的 。 若 下 载 出 错 ， 则 不 会 出 现在 这 个 files 中 。 
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184 分 析 说 明 


在 第 13 章 ， 我 们 介绍 了 使 用 Requests IER QQ 音乐 ， 本 章 将 使 用 Scrapy MER 
QQ 音乐 ， 实 现 与 第 13 章 相同 的 功能 ， 本 章 沿用 第 13 章 的 聆 虫 规则 实现 项 目 开发 。 

在 歌手 列表 Chttps://y.qq.com/portal/singer listhtml) 按照 字母 类 别 对 歌手 分 类 ， 
遍历 每 个 分 类 下 的 每 位 歌手 页 面 ， 然 后 获取 每 位 歌手 页 面 下 的 全 部 歌曲 信息 。 根 据 该 
设计 方案 列 出 遍历 次 数 : 

(1) 遍历 每 个 歌手 的 歌曲 页 数 。 

(2) 遍历 每 个 字母 分 类 的 每 页 歌手 信息 。 

(3) 遍历 每 个 字母 分 类 的 歌手 总 页 数 。 

(4) 遍历 26 个 字母 分 类 的 歌手 列表 。 





第 18 章 项 目 实 战 : Scrapy MER QQ 音乐 


在 功能 上 至 少 需要 实现 4 次 遍历 ， 但 在 实际 开发 中 往往 比 这 个 次 数 要 多 。 统 计 遍 
历次 数 ， 主 要 能 让 开发 者 对 项 目 开 发 有 整体 设计 逻辑 。 
项 目 开发 使 用 模块 化 设计 思想 ， 对 整个 项 目 模块 的 划分 如 下 : 

















(1) 歌曲 下 载 。 

(2) 歌手 信息 和 歌曲 信息 。 

(3) 字母 分 类 下 的 歌手 列表 。 

(4). 全 站 歌手 列表 。 

按照 上 述 方 案 ，Scrapy MER QQ 音乐 的 开发 顺序 如 下 。 
































(1) setting.py: 配置 候 虫 信息 ， 如 请 求 头 、 数 据 库 信息 、 文 件 保存 路 径 。 
(2) items.py: 定义 存储 数据 对 象 ， 主 要 存储 歌曲 相关 信息 。 
(3) pipelines.py: 数据 存储 ， 实 现 歌曲 信息 入 库 和 歌曲 下 载 。 
(4) spiders XFX (music spiderpy) : i SERU. 


PAE KERN SCRURESUR IR E; S8 13 章 相同 ， 所 以 本 章 不 再 对 QQ 音乐 网 站 
进行 分 析 ， 对 息 取 网 站 架构 不 清晰 的 读者 可 阅读 第 13 章 的 有 关内 容 。 






































18.2 创建 项 目 




















首先 创建 Scrapy 爬虫 项 目 ， 命 名 为 scrapy_ scrapy musie Escrapy music 
music， 打 开 CMD 窗口 ， 将 路 径 切换 到 EE 得 ， | “ 
输入 创建 指令 : A ie clie, 

Scrapy startproject scrapy music "raid 

(à middlewares. 

完成 Serapy 项 目 创建 后 ， 在 项 目 中 的 spiders € S 
文件 夹 里 创建 music_spider.py 文件 ， 该 文件 主要 i scapito 
实现 Spider 的 功能 。 最 后 在 PyCharm 中 打开 项 | "eedem 








目 所 在 的 文件 夹 ， 目 录 结 构 如 图 18-1 所 示 。 18-1 目录 结构 











299 





玩 转 Python JEE 


18.3 编写 setting 





完成 项 目 创建 后 ， 接 下 来 就 是 真正 的 项 目 开发 。 按 照 制定 的 开发 顺序 ， 首 先 完成 
项 目 配 置 的 开发 ， 打 开 项 目 中 的 setting.py 文件 ， 由 于 文件 的 原始 代码 较 多 ， 因 此 此 
处 只 列 出 项 目 所 需 的 代码 内 容 。 其 代码 如 下 : 


BOT NAME = 'scrapy music' 

SPIDER MODULES = ['scrapy music.spiders'] 

NEWSPIDER MODULE = 'scrapy music.spiders"' 

# Obey robots.txt rules 

ROBOTSTXT OBEY = True 

# WE Item Pipelines 

ITEM PIPELINES - ( 
'scrapy music.pipelines.ScrapyMusicPipeline': 300, 
'scrapy music.pipelines.DownloadMusicPipeline': 300, 

) 

+ 数据 库 连 接 信息 

MYSQL CONNECTION = 'mysql*pymysql://root:1234810calhost:3306/ 

music db?charset-utf8"' 


# 设置 请 求 头 
DEFAULT REQUEST HEADERS = ( 
'Accept': 'text/html,application/xhtml*xml,application/ 


xml;q-0.9,*/*;q-0.8', 
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) 
Gecko/20100101 Firefox/41.0', 
) 
# 设置 保存 路 径 
FILES STORE = 'E:\\full\\' 


从 上 述 代 码 看 出 ， 项 目 分 别 对 Item Pipelines、 数 据 库 信息 、 请 求 头 和 文件 保存 路 
径 进行 配置 ， 各 个 配置 说 明 如 下 。 


e Item Pipelines: 创建 项 目 时 ， 默 认 配 置 了 类 ScrapyMusicPipeline。 在 此 项 目 中 ， 
需要 添加 一 个 下 载 类 DownloadMusicPipeline， 该 类 继承 自 父 类 FilesPipeline， 
主要 实现 歌曲 下 载 功能 。 

e ”数据库 信息 : 该 配置 属于 自 定 义 配 置信 息 ， 变 量 MYSQL_CONNECTION 是 
字符 串 格 式 ， 内 容 是 SQLAlchemy 连接 数据 库 语 句 。 数 据 库 系统 为 本 地 数据 
库 系 统 ， 数 据 库 为 music db. 
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。 HRA: 配置 默认 的 请 求 头 内 容 ， 如 果 项 目 中 发 送 HITP 请 求 并 没有 指定 请 
求 头 ， 就 默认 使 用 该 配置 作为 请 求 头 。 

e “文件 保存 路 径 : 属于 自 定 义 配置 信息 ， 变 量 FILES_ STORE 为 字符 串 格式 ， 内 
容 是 系统 有 效 路 径 ， 主 要 用 于 歌曲 下 载 的 保存 路 径 。 


除 此 之 外 ， 还 可 以 配置 并 发 数 和 下 载 延 时 等 相关 信息 。 本 节 使 用 默认 配置 即 可 ， 
读者 可 根据 以 下 代码 自行 配置 : 


# Configure maximum concurrent requests performed by Scrapy 
(default: 16) 

# 设置 并 发 数 ，Scrapy 默认 同一 时 间 可 并 发 16 个 请 求 

#CONCURRENT_REQUESTS = 32 

# Configure a delay for requests for the same website (default: 0) 

# See http://scrapy.readthedocs.org/en/latest/topics/settings. 
htmlf£&download-delay 

# See also autothrottle settings and docs 

# 设置 下 载 延 时 ， 延 长 每 个 下 载 之 间 的 时 间 间 隔 

$DOWNLOAD DELAY = 3 

4 The download delay setting will honor only one of: 

# 设置 同一 域名 和 同一 IP 的 并 发 数 

$CONCURRENT REQUESTS PER DOMAIN = 16 

$*CONCURRENT REQUESTS PER IP = 16 


18.4 编写 Items 





Items 主要 用 于 定义 歌曲 信息 寄存 的 对 象 ， 衔 接 Spider 和 Item Pipelines， 使 两 者 
之 间 的 数据 交互 传递 。 
根据 第 13 章 的 数据 存储 ， 需 要 存储 的 歌曲 信息 见 表 18-1. 
表 18-1 song 数 据 表 
T R TOR 


song id song interval 








song name song songmid 











song ablum song singer 
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其 中 ，song id 是 数据 表 的 主键 并 且 数 据 是 自动 生成 的 ， 在 仆 取 数据 中 ， 该 数据 
并 不 存在 ， 所 以 可 以 不 用 定义 。 除 了 上 述 信 息 之 外 ， 我 们 还 需要 添加 歌曲 下 载 链接 ， 
因为 歌曲 下 载 是 在 Item Pipelines 实现 的 ， 但 下 载 的 链接 是 在 Spider 生成 的 ， 所 以 两 
者 之 间 需 要 数据 传递 。 综 合 分 析 ， 打 开 该 项 目的 items.py， 代 码 如 下 : 


import scrapy 
class ScrapyMusicItem(scrapy.Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
song name - scrapy.Field() 
song ablum - scrapy.Field() 
song interval - scrapy.Field() 
song songmid - scrapy.Field() 
song singer - scrapy.Field() 
song url - scrapy.Field() 


pass 


18.5 编写 Item Pipelines 





接 下 来 编写 Item Pipelines， 该 模块 主要 实现 两 个 功能 : 歌曲 信息 入 库 和 歌曲 下 载 。 
两 个 功能 的 数据 来 源 都 是 Items 所 定义 的 数据 对 象 。 


歌曲 信息 入 库 主要 由 ScrapyMusicPipeline 实现 ， 该 类 是 创建 项 目 时 自动 生成 的 ， 
实现 代码 如 下 : 


+ 导入 下 载 类 

import scrapy 

from scrapy.pipelines.files import FilesPipeline 

# 导入 SQLAlchemy 

from sqlalchemy import * 

from sqlalchemy.orm import sessionmaker 

from sqlalchemy.ext.declarative import declarative base 
# SA setting.py 配置 信息 


from scrapy.conf import settings 


4 SQLAlchemy 映射 数据 表 


302 


Base = 


第 18 章 项 目 实战 : Scrapy ER QQ 音乐 


declarative base() 


class song (Base): 


+ 表 名 
. tablename = 'song' 
+ 字段 ， 属 性 


song id = Column(Integer, primary key-True) 


song name = Column (String (50)) 


song ablum = Column (String (50) ) 


song interval = Column (String(50)) 


song songmid = Column (String (50)) 


song singer = Column (String (50) ) 


# 数据 入 库 


class ScrapyMusicPipeline (object) : 


def 


def 


. init (self): 

# 获取 配置 信息 setting.py 的 数据 库 连接 
connection = settings['MYSQL CONNECTION'] 
# 连接 数据 库 


engine = create engine(connection, echo-False) 


* 创建 会 话 对 象 ， 用 于 数据 表 的 操作 
DBSession = sessionmaker (bind=engine) 
self.SQLsession = DBSession() 

* 创建 数据 表 


Base.metadata.create all(engine) 


process item(self, item, spider): 
data = song( 
song name-item['song name'], 
song ablum-item['song ablum'], 
song interval-item['song interval'], 
song songmid-item['song songmid'], 
song singer-item['song singer'], 
) 
self.SQLsession.add (data) 
self.SQLsession.commit() 


return item 


上 述 代 码 可 划分 为 三 部 分 : HE /模块 导入 、SQLAlchemy 映射 数据 表 和 歌曲 信息 


入 库 ， 各 部 分 说 明 如 下 。 
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e REJMMXRSRON: 分 别 导入 scrapy, FilesPipeline, SQLAlchemy 和 setting.py。 

*  QLAlchemy 映射 数据 表 : 定义 song 类， 表 名 是 song， 类 属性 是 数据 表 的 字段 。 
这 部 分 只 是 定义 类 映射 到 数据 表 ， 但 实际 上 ， 数 据 库 和 程序 还 没 真正 连接 。 

e 歌曲 信息 入 库 :i 主要 由 初始 方法 (int ) 和 类 方法 process item 共同 实现 
入 库 。 初 始 方法 init ) 主要 实现 程序 与 数据 库 的 连接 ， 连 接 方式 是 使 用 
SQLAlchemy 实现 。 类 方法 process item 主要 对 Spider 传递 的 Items 对 象 进行 
入 库 处 理 ， 从 数据 写 入 方式 来 看 ，Items 对 象 是 每 次 返回 一 条 歌曲 信息 ， 也 就 
是 每 疏 取 一 首 歌曲 ， 就 会 执行 一 次 歌曲 入 库 和 下 载 。 


完成 歌曲 信息 入 库 后 ， 还 要 实现 歌曲 下 载 ， 歌 曲 下 载 是 由 DownloadMusicPipeline 
实现 的 ， 该 类 属于 自 定义 类 ， 继 承 自 父 类 FilesPipeline， 代 码 如 下 : 


# 下 载 文件 
class DownloadMusicPipeline (FilesPipeline): 
* Ej get media requests 
def get media requests(self, item, info): 
+ 设置 文件 名 
file name = item['song songmid'] + '.m4a' 
yield scrapy.Request(item['song url'], 


meta-('name': file name]) 


# 重 写 fle_path， 命 名 文件 名 
def file path(self, request, response-None, info-None): 
file name = settings['FILES STORE'] + 
(request.meta['name']) 
return file name 


歌曲 下 载 由 类 方法 get media requests) 和 file path() 共同 实现 ， 两 者 都 是 从 父 类 
FilesPipeline 继承 并 重 写 的 。 父 类 FilesPipeline 有 一 套 完善 的 下 载 机制 ， 但 很 多 时 候 并 
不 符合 各 种 各 样 的 下 载 需求 ， 所 以 大 多 数 情况 下 都 是 通过 类 的 继承 和 重 写 的 方式 实现 
需求 化 下 载 。 


e get media requests): 每 次 Spider 传递 的 Items 对 象 都 是 一 首 歌曲 的 信息 ， 从 
Items 对 象 获取 歌曲 的 songmid 作为 文件 名 ， 然 后 将 文件 名 作为 scrapyRequest 
的 meta 参数 传递 给 file path. 


304 


第 18 章 项 目 实战 : Scrapy ER QQ 音乐 
e file path(): 接收 get media requests() 传递 的 参数 meta， 并 读 取 setting. 


py 里 面 的 文件 路 径 配 置信 息 ， 组 合成 一 个 完整 的 文件 路 径 ， 最 后 
DownloadMusicPipeline 将 下 载 的 文件 以 fle path() 返回 值 作 为 文件 名 。 


18.6 编写 Spider 





Spider 是 整个 项 目 中 的 难点 ， 同 时 也 是 代码 量 最 多 的 一 个 功能 。 根 据 第 13 章 实 
现 的 功能 发 现 ， 整 个 程序 共 发 送 了 6 个 不 同 的 请 求 。 在 Spider 中 ， 一 个 请 求 代表 一 个 
类 方法 ， 因 此 本 项 目的 Spider 共有 6 个 类 方法 ， 相 应 的 功能 有 : 

(1) 歌手 字母 分 类 A 一 Z。 

(2) 获取 每 个 字母 分 类 下 的 每 页 歌手 。 

(3) 获取 每 一 个 歌手 信息 。 

(4) 获取 歌手 的 每 一 页 歌曲 。 

(5) 获取 每 一 页 的 每 一 首 歌 曲 信 息 。 

(6) 每 一 首 歌曲 信息 。 


根据 上 述 分 析 ， 实 现代 码 如 下 : 


import scrapy 

import json 

import math 

from scrapy music.items import ScrapyMusicItem 
from scrapy.spider import Spider 


class QOMusic (Spider): 


name = 'QQMusic' 

allowed domains = ['qq.com'] 

# start urls 是 歌手 列表 URL， 并 使 用 $s 设置 可 控 变 量 
start urls = [ 


'https://c.y.qq.com/v8/fcg-bin/v8.fcg?channel-singer&page 
-list&key-all all $s& 
pagesize-100&pagenum-$s&loginUin-0&hostUin-0&format-jsonp' 


] 
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# X5 start requests， 遍 历 歌手 字母 分 类 A — Z 
def start requests (self): 
for i in range(65, 66): 
key = chr(i) 
url - self.start urls[0] $(key, 1) 
yield scrapy.Request(url, dont filter-True, 
callback-self.get genre singer, 
meta-('key': key]) 


# 获取 每 个 字母 分 类 下 的 每 页 歌手 
def get genre singer(self, response): 
# 通过 参数 传递 获取 字母 
key = response.meta['key'] 
+ 从 函数 start requests 中 得 出 响应 内 容 ， 获 取 总 页 数 
pagenum = json.loads (str (response.body.decode('utf-8'))) 
['data']['total page'] 
+ 生成 列表 
page list = [x for x in range (pagenum)] 
for p in page list: 
url - self.start urls[0] $ (key, p*1) 
* dont filter 取消 重复 请 求 
yield scrapy.Request(url, dont filter-True, 
callback-self.get singer songs) 


# 获取 每 一 个 歌手 信息 
def get singer songs(self, response): 
# 获取 每 个 字母 分 类 下 的 每 页 歌手 的 全 部 信息 
singermid list = json.loads (response.body. 
decode('utf-8'))['data']['1list'] 
for k in singermid list: 
url = 'https://c.y.qq.com/v8/fcg-bin/fcg v8 singer - 
track cp.fcg?loginUin-0& 
hostUin-0&singermid-$s&order-listen&begin-0&n 
um-30&songstatus-1' 
$ (k['Fsinger mid']) 
yield scrapy.Request(url, dont filter-True, 


callback-self.get singer info, 
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meta-('singermid': k['Fsinger mid']]) 


# 获取 歌手 的 每 一 页 歌曲 
def get singer info(self, response): 
+ 参数 传递 获取 singermid 
singermid = response.meta['singermid'] 
# 获取 歌手 的 名 字 、 总 页 数 
singer info = json.loads (response.body.decode('utf-8')) 
song singer - singer info['data']['singer name'] 
songcount = singer info['data']['total'] 
pagecount = math.ceil(int(songcount) / 30) 
for p in range (pagecount): 
url = 'https://c.y.qq.com/v8/fcg-bin/ 
fcg v8 singer track cp.fcg?loginUin-0& 
hostUin-0&singermid-$s&order-listen&begin-$s& 
num-30&songstatus-1'$ (singermid, p * 30) 
yield scrapy.Request(url, dont filter-True, 
callback-self.get song info, 


meta-('song singer': song singer]) 


# 获取 每 一 页 的 每 一 首 歌曲 信息 
def get song info(self, response): 
+ 参数 传递 获取 歌手 名 字 
song singer = response.meta['song singer'] 
music data - json.loads (response.body.decode ('utf-8')) 
['data']['list'] 
for i in music data: 
# 设置 请 求 参数 
filename = 'C400' + i['musicData']['songmid'] 
# 获取 下 载 歌 曲 的 vkey 
url = 'https://c.y.qq.com/base/fcgi-bin/fcg music 
express mobile3.fcg?loginUin-0& 
hostUin-0&cid-205361747&uin-0&songmid-$s&filen 
ame-$s.m4a&guid-0' 
$ (i['musicData']['songmid'], filename) 
yield scrapy.Request(url, dont filter-True, 
callback-self.get data, 
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meta-[('filename': filename, 'i': i, 


'song singer': song singer]) 


# 每 一 首 歌曲 信息 
def get data(self, response): 
+ 参数 传递 
# song singer 为 歌手 名 字 
4 filename 为 请 求 参 数 
+ oi ARES S. 
song singer - response.meta['song singer'] 
filename = response.meta['filename'] 
i = response.meta['i'] 
# items.py 文件 的 类 的 实例 化 ， 用 于 传递 数据 给 pipelines .py 实现 存储 
items = ScrapyMusicItem() 
+ 获取 下 载 歌 曲 的 vkey 
vkey = json.loads (response.body.decode ('utf-8')) ['data'] 


['items'] [0] ['vkey'] 


vkey) 


# 数据 写 入 items， 用 于 传递 数据 给 pipelines .py 实现 存储 
items['song url'] = 'http://dl.stream.qqmusic.qq.com/ 
$s.m4a?vkey-$s&guid-0&uin-0&fromtag-66' $ (filename, 


items['song singer'] - song singer 

items['song name'] - i['musicData']['songname'] 
items['song ablum'] - i['musicData']['albumname'] 
items['song interval'] - i['musicData']['interval'] 
items['song songmid'] - i['musicData']['songmid'] 


yield items 


Spider 共 定 义 了 6 个 类 方法 ， 分 别 对 应 的 功能 如 下 。 
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start requests: 歌手 字母 分 类 A 一 Z， 重 写 Spider 的 start requests. 
get genre singer: 获取 每 个 字母 分 类 下 的 每 页 歌手 。 

get singer songs: 获取 每 一 个 歌手 信息 。 

get singer info: 获取 歌手 的 每 一 页 歌曲 。 

get song info: 获取 每 一 页 的 每 一 首 歌曲 信息 。 

get_data: 每 一 首 歌曲 信息 。 
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程序 运行 的 时 候 ，start_requests0 获得 start urls 里 面 的 URL 信息 ， 然 后 循环 26 
次 ， 分 别 得 到 字母 A 一 Z 并 将 字母 传 入 URL， 生 成 不 同 字母 分 类 的 URL。 最 后 通 
过 scrapy.Request 对 26 个 URL 发 送 GET 请 求 ，dont filter-True 是 关闭 重复 访问 URL 
的 设置 ， 因 为 Scrapy 默认 过 滤 重 复 访 问 相 同 URL， 所 以 在 本 项 目 中 我 们 需要 对 同一 
URL 发 送 多 次 请 求 获取 不 同 的 数据 ;参数 meta 是 将 start requestsO 的 数据 传递 到 回 
调 函数 get genre singer 中 。 


get genre singer() 是 处 理 start requests() 对 26 个 URL 发 送 GET 请 求 的 响应 
内 容 。 首 先 分 别 获取 start requests() 传递 的 meta 参数 和 当前 分 类 的 总 页 数 (来 
É F start requests() 发 送 GET 请 求 的 响应 内 容 ) ， 使 用 得 到 的 数据 构建 新 的 
URL， 其 URL 代表 当前 分 类 的 每 一 页 的 歌手 信息 ， 最 后 对 新 构建 的 URL 发 
送 GET 请 求 ， 回 调 函数 为 get_singer_songs()。 

get singer songs() 是 处 理 get genre singer() 发 送 GET 请 求 的 响应 内 容 。 其 
响应 内 容 是 获取 当前 分 类 的 每 一 页 的 歌手 信息 ， 得 到 的 歌手 信息 是 以 列表 形 
式 表示 的 ， 通 过 遍历 该 列表 分 别 得 到 每 位 歌手 的 singermid， 然 后 构建 新 的 
URL， 其 URL 代表 当前 歌手 的 主页 面 ， 如 13.3 节 的 图 13-5 所 示 。 最 后 对 新 
的 URL 发送 GET 请 求 ， 获 取 当 前 歌手 的 全 部 信息 ， 回 调 函 数 是 get singer 
info()， 并 传递 参数 meta， 代 表 当 前 歌手 的 singermid。 

get singer info() 是 处 理 get singer songs() 发 送 GET 请 求 的 响应 内 容 ， 从 响 
应 内 容 中 获取 歌手 的 信息 并 计算 歌曲 的 总 页 数 ， 使 用 得 到 的 信息 构建 新 的 
URL， 代 表 当 前 歌手 的 每 一 页 歌曲 ， 最 后 对 新 构建 的 URL 发 送 GET 请 求 ， 
回调 函数 是 get song info0， 参 数 meta 为 歌手 姓名 。 

get song info) 是 从 上 一 请 求 的 响应 内 容 中 获取 歌曲 信息 ， 歌 曲 信 息 以 列表 
形式 表示 ， 通 过 遍历 该 列表 分 别 获取 每 一 首 歌 的 信息 ， 并 使 用 得 到 的 歌曲 信 
息 构建 新 的 URL， 其 URL 用 于 获取 下 载 歌 曲 的 vkey 等 下 载 信息 ， 最 后 对 该 
URL 发 送 GET 请 求 ， 回 调 函 数 为 get_data()， 参 数 meta 是 歌手 歌曲 信息 。 

get data) 是 最 后 一 个 回调 函数 ， 主 要 用 于 获取 歌曲 的 下 载 链 接 和 歌曲 信息 。 
通过 处 理 上 一 请 求 的 响应 内 容 得 到 歌曲 下 载 的 信息 并 构建 歌曲 下 载 链 接 ， 
同时 将 得 到 的 歌曲 信息 和 新 构建 的 下 载 链 接 写 入 Items 对 象 并 返回 给 Item 
Pipelines。 
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从 整个 Spider 分 析 ， 实 现 步骤 是 : 全 部 字母 分 类 歌手 列表 一 当前 字母 分 类 歌手 列 
表 一 当前 分 类 每 页 的 歌手 列表 一 当前 分 类 当前 页 数 的 每 位 歌手 一 当前 歌手 的 每 页 歌曲 
列表 一 当前 歌手 的 当前 歌曲 页 数 的 每 一 首 歌曲 一 获取 歌曲 信息 并 下 载 歌 曲 。 

从 实现 步骤 与 第 13 章 实现 步骤 的 对 比 可 以 发 现 两 者 的 顺序 是 相反 的 ， 前 者 是 从 
大 到 小 、 从 面 到 点 的 实现 方式 ; 后 者 是 从 小 到 大 、 从 点 到 面 的 实现 方式 。 


18.7 本 章 小 结 





本 章 介绍 了 使 用 Scrapy 编写 爬 取 QQ 音乐 的 程序 ， 通 过 本 章 的 学 习 ， 读 者 应 当 
掌握 以 下 技能 : 


1. Scrapy MER QQ 音乐 的 开发 顺序 


setting.py: 配置 爬虫 信息 ， 如 请 求 头 、 数 据 库 信息 、 文 件 保存 路 径 。 
items.py: 定义 存储 数据 对 象 ， 主 要 存储 歌曲 相关 信息 。 
pipelines.py: 数据 存储 ， 实 现 歌 曲 信息 入 库 和 歌曲 下 载 。 

spiders X fF X (music spiderpy) : 编写 爬虫 规则 。 


2. 项 目 配置 
setting.py 是 对 整个 项 目的 配置 ， 本 项 目的 配置 如 下 : 
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Item Pipelines: 项 目 创建 时 ， 默 认 配置 了 类 ScrapyMusicPipeline。 在 此 项 目 中 ， 
需要 添加 一 个 下 载 类 DownloadMusicPipeline。 该 类 继承 自 父 类 FilesPipeline， 
主要 实现 歌曲 下 载 功能 。 

数据 库 信 息 : 该 配置 属于 自 定 义 配 置信 息 ， 变 量 MYSQL CONNECTION 是 
字符 串 格 式 ， 内 容 是 SQLAlchemy 连接 数据 库 语 句 。 数 据 库 系 统 为 本 地 数据 
库 系统 ， 数 据 库 为 music_db。 

HRA: 配置 默认 的 请 求 头 内 容 ， 如 果 项 目 中 发 送 HTTP 请 求 时 并 没有 指定 
请 求 头 ， 就 默认 使 用 该 配置 作为 请 求 头 。 

文件 保存 路 径 属于 自 定 义 配置 信息 ， 变 量 FILES_STORE 为 字符 串 格 式 ， 内 
容 是 系统 有 效 路 径 ， 主 要 用 于 歌曲 下 载 的 保存 路 径 。 


第 18 章 项 目 实战 ， Scrapy MER QQ 音乐 


items.py 主要 定义 歌曲 信息 寄存 的 对 象 ， 衔 接 Spider 和 Item Pipelines， 使 两 者 之 
间 的 数据 交互 传递 。 

Item Pipelines 主要 实现 两 个 功能 : 歌曲 信息 入 库 和 歌曲 下 载 。 两 个 功能 的 数 
据 来 源 都 是 Items 所 定义 的 数据 对 象 。 歌 曲 信息 入 库 主 要 由 ScrapyMusicPipeline 实 
现 ， 歌 曲 下 载 由 类 方法 get media requests) 和 file path() 共同 实现 ， 两 者 都 是 从 父 类 
FilesPipeline 继承 并 重 写 的 。 


3. Spider 的 类 方法 
Spider 共有 6 个 类 方法 ， 分 别 说明 如 下 。 


start requests: 歌手 字母 分 类 A-Z， 重 写 Spider 的 start requests. 
get genre singer: 获取 每 个 字母 分 类 下 的 每 页 歌手 。 

get singer songs: 获取 每 一 个 歌手 信息 。 

get singer info: 获取 歌手 的 每 一 页 歌曲 。 

get song info: 获取 每 一 页 的 每 一 首 歌 曲 信息 。 

get data: 每 一 首 歌 曲 信息 。 


从 整个 Spider 分 析 ， 实 现 步骤 是 : 全 部 字母 分 类 歌手 列表 一 当前 字母 分 类 歌手 列 
表 一 当前 分 类 每 页 的 歌手 列表 一 当前 分 类 当前 页 数 的 每 位 歌手 一 当前 歌手 的 每 页 歌曲 
列表 一 当前 歌手 的 当前 歌曲 页 数 的 每 一 首 歌曲 一 获取 歌曲 信息 并 下 载 歌 曲 。 

从 实现 步骤 与 第 13 章 实现 步骤 的 对 比 可 以 发 现 两 者 的 顺序 是 相反 的 ， 前 者 是 从 
大 到 小 、 从 面 到 点 的 实现 方式 ， 后 者 是 从 小 到 大 、 从 点 到 面 的 实现 方式 。 
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